-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 景觀設(shè)計 > 專題列表 > 正文
圖神經(jīng)網(wǎng)絡(luò)論文推薦
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于圖神經(jīng)網(wǎng)絡(luò)論文推薦的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、Nature 論文:探索深度神經(jīng)網(wǎng)絡(luò)之間的個體差異
深度神經(jīng)網(wǎng)絡(luò)(DNNs)是 AI 領(lǐng)域的重要成果,但它的 “存在感” 已經(jīng)不僅僅限于該領(lǐng)域。
一些前沿生物醫(yī)學(xué)研究,也正被這一特別的概念所吸引。特別是計算神經(jīng)科學(xué)家。
在以前所未有的任務(wù)性能徹底改變計算機視覺之后,相應(yīng)的 DNNs 網(wǎng)絡(luò)很快就被用以試著解釋大腦信息處理的能力,并日益被用作靈長類動物大腦神經(jīng)計算的建??蚣?。經(jīng)過任務(wù)優(yōu)化的深度神經(jīng)網(wǎng)絡(luò),已經(jīng)成為預(yù)測靈長類動物視覺皮層多個區(qū)域活動的最佳模型類型之一。
用神經(jīng)網(wǎng)絡(luò)模擬大腦或者試圖讓神經(jīng)網(wǎng)絡(luò)更像大腦正成為主流方向的當(dāng)下,有研究小組卻選擇用神經(jīng)生物學(xué)的方法重新審視計算機學(xué)界發(fā)明的DNNs。
而他們發(fā)現(xiàn),諸如改變初始權(quán)重等情況就能改變網(wǎng)絡(luò)的最終訓(xùn)練結(jié)果。這對使用單個網(wǎng)絡(luò)來窺得生物神經(jīng)信息處理機制的普遍做法提出了新的要求:如果沒有將具有相同功能的深度神經(jīng)網(wǎng)絡(luò)具有的差異性納入考慮的話,借助這類網(wǎng)絡(luò)進(jìn)行生物大腦運行機制建模將有可能出現(xiàn)一些隨機的影響。要想盡量避免這種現(xiàn)象,從事 DNNs 研究的計算神經(jīng)科學(xué)家,可能需要將他們的推論建立在多個網(wǎng)絡(luò)實例組的基礎(chǔ)上,即嘗試去研究多個相同功能的神經(jīng)網(wǎng)絡(luò)的質(zhì)心,以此克服隨機影響。
而對于 AI 領(lǐng)域的研究者,團(tuán)隊也希望這種表征一致性的概念能幫助機器學(xué)習(xí)研究人員了解在不同任務(wù)性能水平下運行的深度神經(jīng)網(wǎng)絡(luò)之間的差異。
人工神經(jīng)網(wǎng)絡(luò)由被稱為 “感知器”、相互連接的單元所建立,感知器則是生物神經(jīng)元的簡化數(shù)字模型。人工神經(jīng)網(wǎng)絡(luò)至少有兩層感知器,一層用于輸入層,另一層用于輸出層。在輸入和輸出之間夾上一個或多個 “隱藏” 層,就得到了一個 “深層” 神經(jīng)網(wǎng)絡(luò),這些層越多,網(wǎng)絡(luò)越深。
深度神經(jīng)網(wǎng)絡(luò)可以通過訓(xùn)練來識別數(shù)據(jù)中的特征,就比如代表貓或狗圖像的特征。訓(xùn)練包括使用一種算法來迭代地調(diào)整感知器之間的連接強度(權(quán)重系數(shù)),以便網(wǎng)絡(luò)學(xué)會將給定的輸入(圖像的像素)與正確的標(biāo)簽(貓或狗)相關(guān)聯(lián)。理想狀況是,一旦經(jīng)過訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠?qū)λ郧皼]有見過的同類型輸入進(jìn)行分類。
但在總體結(jié)構(gòu)和功能上,深度神經(jīng)網(wǎng)絡(luò)還不能說是嚴(yán)格地模仿人類大腦,其中對神經(jīng)元之間連接強度的調(diào)整反映了學(xué)習(xí)過程中的關(guān)聯(lián)。
一些神經(jīng)科學(xué)家常常指出深度神經(jīng)網(wǎng)絡(luò)與人腦相比存在的局限性:單個神經(jīng)元處理信息的范圍可能比 “失效” 的感知器更廣,例如,深度神經(jīng)網(wǎng)絡(luò)經(jīng)常依賴感知器之間被稱為反向傳播的通信方式,而這種通信方式似乎并不存在于人腦神經(jīng)系統(tǒng)。
然而,計算神經(jīng)科學(xué)家會持不同想法。有的時候,深度神經(jīng)網(wǎng)絡(luò)似乎是建模大腦的最佳選擇。
例如,現(xiàn)有的計算機視覺系統(tǒng)已經(jīng)受到我們所知的靈長類視覺系統(tǒng)的影響,尤其是在負(fù)責(zé)識別人、位置和事物的路徑上,借鑒了一種被稱為腹側(cè)視覺流的機制。
對人類來說,腹側(cè)神經(jīng)通路從眼睛開始,然后進(jìn)入丘腦的外側(cè)膝狀體,這是一種感覺信息的中繼站。外側(cè)膝狀體連接到初級視覺皮層中稱為 V1 的區(qū)域,在 V1 和 V4 的下游是區(qū)域 V2 和 V4,它們最終通向下顳葉皮層。非人類靈長類動物的大腦也有類似的結(jié)構(gòu)(與之相應(yīng)的背部視覺流是一條很大程度上獨立的通道,用于處理看到運動和物體位置的信息)。
這里所體現(xiàn)的神經(jīng)科學(xué)見解是,視覺信息處理的分層、分階段推進(jìn)的:早期階段先處理視野中的低級特征(如邊緣、輪廓、顏色和形狀),而復(fù)雜的表征,如整個對象和面孔,將在之后由顳葉皮層接管。
如同人的大腦,每個 DNN 都有獨特的連通性和表征特征,既然人的大腦會因為內(nèi)部構(gòu)造上的差異而導(dǎo)致有的人可能記憶力或者數(shù)學(xué)能力更強,那訓(xùn)練前初始設(shè)定不同的神經(jīng)網(wǎng)絡(luò)是否也會在訓(xùn)練過程中展現(xiàn)出性能上的不同呢?
換句話說,功能相同,但起始條件不同的神經(jīng)網(wǎng)絡(luò)間究竟有沒有差異呢?
這個問題之所以關(guān)鍵,是因為它決定著科學(xué)家們應(yīng)該在研究中怎樣使用深度神經(jīng)網(wǎng)絡(luò)。
在之前 Nature 通訊發(fā)布的一篇論文中,由英國劍橋大學(xué) MRC 認(rèn)知及腦科學(xué)研究組、美國哥倫比亞大學(xué) Zuckerman Institute 和荷蘭拉德堡大學(xué)的 Donders 腦科學(xué)及認(rèn)知與行為學(xué)研究中心的科學(xué)家組成的一支科研團(tuán)隊,正試圖回答這個問題。論文題目為《Individual differences among deep neural network models》。
根據(jù)這篇論文,初始條件不同的深度神經(jīng)網(wǎng)絡(luò),確實會隨著訓(xùn)練進(jìn)行而在表征上表現(xiàn)出越來越大的個體差異。
此前的研究主要是采用線性典范相關(guān)性分析(CCA,linear canonical correlation analysis)和 centered-kernel alignment(CKA)來比較神經(jīng)網(wǎng)絡(luò)間的內(nèi)部網(wǎng)絡(luò)表征差異。
這一次,該團(tuán)隊的研究采用的也是領(lǐng)域內(nèi)常見的分析手法 —— 表征相似性分析(RSA,representational similarity analysis)。
該分析法源于神經(jīng)科學(xué)的多變量分析方法,常被用于將計算模型生產(chǎn)的數(shù)據(jù)與真實的大腦數(shù)據(jù)進(jìn)行比較,在原理上基于通過用 “雙(或‘對’)” 反饋差異表示系統(tǒng)的內(nèi)部刺激表征(Inner stimulus representation)的表征差異矩陣(RDMs,representational dissimilarity matrices),而所有雙反饋組所組成的幾何則能被用于表示高維刺激空間的幾何排布。
兩個系統(tǒng)如果在刺激表征上的特點相同(即表征差異矩陣的相似度高達(dá)一定數(shù)值),就被認(rèn)為是擁有相似的系統(tǒng)表征。
表征差異矩陣的相似度計算在有不同維度和來源的源空間(source spaces)中進(jìn)行,以避開定義 “系統(tǒng)間的映射網(wǎng)絡(luò)”。本研究的在這方面上的一個特色就是,使用神經(jīng)科學(xué)研究中常用的網(wǎng)絡(luò)實例比較分析方法對網(wǎng)絡(luò)間的表征相似度進(jìn)行比較,這使得研究結(jié)果可被直接用于神經(jīng)科學(xué)研究常用的模型。
最終,對比的結(jié)果顯示,僅在起始隨機種子上存在不同的神經(jīng)網(wǎng)絡(luò)間存在明顯個體差異。
該結(jié)果在采用不同網(wǎng)絡(luò)架構(gòu),不同訓(xùn)練集和距離測量的情況下都成立。團(tuán)隊分析認(rèn)為,這種差異的程度與 “用不同輸入訓(xùn)練神經(jīng)網(wǎng)絡(luò)” 所產(chǎn)生的差異相當(dāng)。
如上圖所示,研究團(tuán)隊通過計算對應(yīng) RDM 之間的所有成對距離,比較 all-CNN-C 在所有網(wǎng)絡(luò)實例和層、上的表示幾何。
再通過 MDS 將 a 中的數(shù)據(jù)點(每個點對應(yīng)一個層和實例)投影到二維。各個網(wǎng)絡(luò)實例的層通過灰色線連接。雖然早期的代表性幾何圖形高度相似,但隨著網(wǎng)絡(luò)深度的增加,個體差異逐漸顯現(xiàn)。
在證明了深度神經(jīng)網(wǎng)絡(luò)存在的顯著個體差異之后,團(tuán)隊繼續(xù)探索了這些差異存在的解釋。
隨后,研究者再通過在訓(xùn)練和測試階段使用 Bernoulli dropout 方法調(diào)查了網(wǎng)絡(luò)正則化(network regularization)對結(jié)果能造成的影響,但發(fā)現(xiàn)正則化雖然能在一定程度上提升 “采用不同起始隨機種子的網(wǎng)絡(luò)之表征” 的一致性,但并不能修正這些網(wǎng)絡(luò)間的個體差異。
最后,通過分析網(wǎng)絡(luò)的訓(xùn)練軌跡與個體差異出現(xiàn)的過程并將這一過程可視化,團(tuán)隊在論文中表示,神經(jīng)網(wǎng)絡(luò)的性能與表征一致性間存在強負(fù)相關(guān)性,即網(wǎng)絡(luò)間的個體差異會在訓(xùn)練過程中被加劇。
總而言之,這項研究主要調(diào)查了多個神經(jīng)網(wǎng)絡(luò)在最少的實驗干預(yù)條件下是否存在個體差異,即在訓(xùn)練開始前為網(wǎng)絡(luò)設(shè)置不同權(quán)重的隨機種子,但保持其他條件一致,并以此拓展了此前與 “神經(jīng)網(wǎng)絡(luò)間相關(guān)性” 有關(guān)的研究。
除了這篇 這篇 研究以外,“深度學(xué)習(xí)三巨頭” 之一、著名 AI 學(xué)者 Hinton 也有過與之相關(guān)的研究,論文名為《Similarity of Neural Network Representations Revisited》,文章探討了測量深度神經(jīng)網(wǎng)絡(luò)表示相似性的問題,感興趣的讀者可以一并進(jìn)行閱讀。
Refrence:
[1]https://www.nature.com/articles/s41467-020-19632-w#citeas
[2]https://www.quantamagazine.org/deep-neural-networks-help-to-explain-living-brains-20201028/
二、卷積神經(jīng)網(wǎng)絡(luò)CNN在圖像識別問題應(yīng)用綜述(20191219)
這兩天在公司做PM實習(xí),主要是自學(xué)一些CV的知識,以了解產(chǎn)品在解決一些在圖像識別、圖像搜索方面的問題,學(xué)習(xí)的主要方式是在知網(wǎng)檢索了6.7篇國內(nèi)近3年計算機視覺和物體識別的碩博士論文。由于時間關(guān)系,后面還會繼續(xù)更新圖片相似度計算(以圖搜圖)等方面的學(xué)習(xí)成果
將這兩天的學(xué)習(xí)成果在這里總結(jié)一下。你將會看到計算機視覺在解決特定物體識別問題(主要是卷積神經(jīng)網(wǎng)絡(luò)CNNs)的基礎(chǔ)過程和原理,但這里不會深入到技術(shù)的實現(xiàn)層面。
計算機視覺(Computer vision)是一門研究如何使機器“看”的科學(xué),更進(jìn)一步的說,就是指用攝影機和計算機代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等機器視覺,并進(jìn)一步做圖像處理,用計算機處理成為更適合人眼觀察或傳送給儀器檢測的圖像。
————維基百科
通常而言,計算機視覺的研究包括三個層次:
(1)底層特征的研究:
這一層次的研究主要聚焦如何高效提取出圖像對象具有判別性能的特征,具體的研究內(nèi)容通常包括:物體識別、字符識別等
(2)中層語義特征的研究:
該層次的研究在于在識別出對象的基礎(chǔ)上,對其位置、邊緣等信息能夠準(zhǔn)確區(qū)分?,F(xiàn)在比較熱門的:圖像分割;語義分割;場景標(biāo)注等,都屬于該領(lǐng)域的范疇
(3)高層語義理解:
這一層次建立在前兩層的基礎(chǔ)上,其核心在于“理解”一詞。 目標(biāo)在于對復(fù)雜圖像中的各個對象完成語義級別的理解。這一層次的研究常常應(yīng)用于:場景識別、圖像摘要生成及圖像語義回答等。
而我研究的問題主要隸屬于底層特征和中層語義特征研究中的物體識別和場景標(biāo)注問題。
人類的視覺工作模式是這樣的:
首先,我們大腦中的神經(jīng)元接收到大量的信息微粒,但我們的大腦還并不能處理它們。
于是接著神經(jīng)元與神經(jīng)元之間交互將大量的微粒信息整合成一條又一條的線。
接著,無數(shù)條線又整合成一個個輪廓。
最后多個輪廓累加終于聚合我們現(xiàn)在眼前看到的樣子。
計算機科學(xué)受到神經(jīng)科學(xué)的啟發(fā),也采用了類似的工作方式。具體而言,圖像識別問題一般都遵循下面幾個流程
(1)獲取底層信息。獲取充分且清潔的高質(zhì)量數(shù)據(jù)往往是圖像識別工作能否成功的關(guān)鍵所在
(2)數(shù)據(jù)預(yù)處理工作,在圖像識別領(lǐng)域主要包括四個方面的技術(shù):去噪處理(提升信噪比)、圖像增強和圖像修復(fù)(主要針對不夠清晰或有破損缺失的圖像);歸一化處理(一方面是為了減少開銷、提高算法的性能,另一方面則是為了能成功使用深度學(xué)習(xí)等算法,這類算法必須使用歸一化數(shù)據(jù))。
(3)特征提取,這一點是該領(lǐng)域的核心,也是本文的核心。圖像識別的基礎(chǔ)是能夠提取出足夠高質(zhì)量,能體現(xiàn)圖像獨特性和區(qū)分度的特征。
過去在10年代之前我們主要還是更多的使用傳統(tǒng)的人工特征提取方法,如PCALCA等來提取一些人工設(shè)計的特征,主要的方法有(HOG、LBP以及十分著名的SIFT算法)。但是這些方法普遍存在(a)一般基于圖像的一些提層特征信息(如色彩、紋理等)難以表達(dá)復(fù)雜的圖像高層語義,故泛化能力普遍比較弱。(b)這些方法一般都針對特定領(lǐng)域的特定應(yīng)用設(shè)計,泛化能力和遷移的能力大多比較弱。
另外一種思路是使用BP方法,但是畢竟BP方法是一個全連接的神經(jīng)網(wǎng)絡(luò)。這以為這我們非常容易發(fā)生過擬合問題(每個元素都要負(fù)責(zé)底層的所有參數(shù)),另外也不能根據(jù)樣本對訓(xùn)練過程進(jìn)行優(yōu)化,實在是費時又費力。
因此,一些研究者開始嘗試把諸如神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等方法運用到特征提取的過程中,以十幾年前深度學(xué)習(xí)方法在業(yè)界最重要的比賽ImageNet中第一次戰(zhàn)勝了SIFT算法為分界線,由于其使用權(quán)重共享和特征降采樣,充分利用了數(shù)據(jù)的特征。幾乎每次比賽的冠軍和主流都被深度學(xué)習(xí)算法及其各自改進(jìn)型所占領(lǐng)。其中,目前使用較多又最為主流的是CNN算法,在第四部分主要也研究CNN方法的機理。
上圖是一個簡易的神經(jīng)網(wǎng)絡(luò),只有一層隱含層,而且是全連接的(如圖,上一層的每個節(jié)點都要對下一層的每個節(jié)點負(fù)責(zé)。)具體神經(jīng)元與神經(jīng)元的作用過程可見下圖。
在諸多傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,BP算法可能是性能最好、應(yīng)用最廣泛的算法之一了。其核心思想是:導(dǎo)入訓(xùn)練樣本、計算期望值和實際值之間的差值,不斷地調(diào)整權(quán)重,使得誤差減少的規(guī)定值的范圍內(nèi)。其具體過程如下圖:
一般來說,機器學(xué)習(xí)又分成淺層學(xué)習(xí)和深度學(xué)習(xí)。傳統(tǒng)的機器學(xué)習(xí)算法,如SVM、貝葉斯、神經(jīng)網(wǎng)絡(luò)等都屬于淺層模型,其特點是只有一個隱含層。邏輯簡單易懂、但是其存在理論上缺乏深度、訓(xùn)練時間較長、參數(shù)很大程度上依賴經(jīng)驗和運氣等問題。
如果是有多個隱含層的多層神經(jīng)網(wǎng)絡(luò)(一般定義為大于5層),那么我們將把這個模型稱為深度學(xué)習(xí),其往往也和分層訓(xùn)練配套使用。這也是目前AI最火的領(lǐng)域之一了。如果是淺層模型的問題在于對一個復(fù)雜函數(shù)的表示能力不夠,特別是在復(fù)雜問題分類情況上容易出現(xiàn)分類不足的弊端,深度網(wǎng)絡(luò)的優(yōu)勢則在于其多層的架構(gòu)可以分層表示邏輯,這樣就可以用簡單的方法表示出復(fù)雜的問題,一個簡單的例子是:
如果我們想計算sin(cos(log(exp(x)))),
那么深度學(xué)習(xí)則可分層表示為exp(x)—>log(x)—>cos(x)—>sin(x)
圖像識別問題是物體識別的一個子問題,其魯棒性往往是解決該類問題一個非常重要的指標(biāo),該指標(biāo)是指分類結(jié)果對于傳入數(shù)據(jù)中的一些轉(zhuǎn)化和扭曲具有保持不變的特性。這些轉(zhuǎn)化和扭曲具體主要包括了:
(1)噪音(2)尺度變化(3)旋轉(zhuǎn)(4)光線變化(5)位移
該部分具體的內(nèi)容,想要快速理解原理的話推薦看[知乎相關(guān)文章] ( https://www.zhihu.com/search?type=content&q=CNN ),
特別是其中有些高贊回答中都有很多動圖和動畫,非常有助于理解。
但核心而言,CNN的核心優(yōu)勢在于 共享權(quán)重 以及 感受野 ,減少了網(wǎng)絡(luò)的參數(shù),實現(xiàn)了更快的訓(xùn)練速度和同樣預(yù)測結(jié)果下更少的訓(xùn)練樣本,而且相對于人工方法,一般使用深度學(xué)習(xí)實現(xiàn)的CNN算法使用無監(jiān)督學(xué)習(xí),其也不需要手工提取特征。
CNN算法的過程給我的感覺,個人很像一個“擦玻璃”的過程。其技術(shù)主要包括了三個特性:局部感知、權(quán)重共享和池化。
CNN中的神經(jīng)元主要分成了兩種:
(a)用于特征提取的S元,它們一起組成了卷積層,用于對于圖片中的每一個特征首先局部感知。其又包含很關(guān)鍵的閾值參數(shù)(控制輸出對輸入的反映敏感度)和感受野參數(shù)(決定了從輸入層中提取多大的空間進(jìn)行輸入,可以簡單理解為擦玻璃的抹布有多大)
(b)抗形變的C元,它們一起組成了池化層,也被稱為欠采樣或下采樣。主要用于特征降維,壓縮數(shù)據(jù)和參數(shù)的數(shù)量,減小過擬合,同時提高模型的容錯性。
(c*)激活函數(shù),及卷積層輸出的結(jié)果要經(jīng)過一次激勵函數(shù)才會映射到池化層中,主要的激活函數(shù)有Sigmoid函數(shù)、Tanh函數(shù)、ReLU、Leaky ReLU、ELU、Maxout等。
也許你會抱有疑問,CNN算法和傳統(tǒng)的BP算法等究竟有什么區(qū)別呢。這就會引出區(qū)域感受野的概念。在前面我們提到,一個全連接中,較高一層的每個神經(jīng)元要對低層的每一個神經(jīng)元負(fù)責(zé),從而導(dǎo)致了過擬合和維度災(zāi)難的問題。但是有了區(qū)域感受野和,每個神經(jīng)元只需要記錄一個小區(qū)域,而高層會把這些信息綜合起來,從而解決了全連接的問題。
了解區(qū)域感受野后,你也許會想,區(qū)域感受野的底層神經(jīng)元具體是怎么聚合信息映射到上一層的神經(jīng)元呢,這就要提到重要的卷積核的概念。這個過程非常像上面曾提到的“神經(jīng)元與神經(jīng)元的聯(lián)系”一圖,下面給大家一個很直觀的理解。
上面的這個過程就被稱為一個卷積核。在實際應(yīng)用中,單特征不足以被系統(tǒng)學(xué)習(xí)分類,因此我們往往會使用多個濾波器,每個濾波器對應(yīng)1個卷積核,也對應(yīng)了一個不同的特征。比如:我們現(xiàn)在有一個人臉識別應(yīng)用,我們使用一個卷積核提取出眼睛的特征,然后使用另一個卷積核提取出鼻子的特征,再用一個卷積核提取出嘴巴的特征,最后高層把這些信息聚合起來,就形成了分辨一個人與另一個人不同的判斷特征。
現(xiàn)在我們已經(jīng)有了區(qū)域感受野,也已經(jīng)了解了卷積核的概念。但你會發(fā)現(xiàn)在實際應(yīng)用中還是有問題:
給一個100 100的參數(shù)空間,假設(shè)我們的感受野大小是10 10,那么一共有squar(1000-10+1)個,即10的六次方個感受野。每個感受野中就有100個參數(shù)特征,及時每個感受野只對應(yīng)一個卷積核,那么空間內(nèi)也會有10的八次方個次數(shù),,更何況我們常常使用很多個卷積核。巨大的參數(shù)要求我們還需要進(jìn)一步減少權(quán)重參數(shù),這就引出了權(quán)重共享的概念。
用一句話概括就是,對同一個特征圖,每個感受野的卷積核是一樣的,如這樣操作后上例只需要100個參數(shù)。
池化是CNN技術(shù)的最后一個特性,其基本思想是: 一塊區(qū)域有用的圖像特征,在另一塊相似的區(qū)域中很可能仍然有用。即我們通過卷積得到了大量的邊緣EDGE數(shù)據(jù),但往往相鄰的邊緣具有相似的特性,就好像我們已經(jīng)得到了一個強邊緣,再擁有大量相似的次邊緣特征其實是沒有太大增量價值的,因為這樣會使得系統(tǒng)里充斥大量冗余信息消耗計算資源。 具體而言,池化層把語義上相似的特征合并起來,通過池化操作減少卷積層輸出的特征向量,減少了參數(shù),緩解了過擬合問題。常見的池化操作主要包括3種:
分別是最大值池化(保留了圖像的紋理特征)、均值池化(保留了圖像的整體特征)和隨機值池化。該技術(shù)的弊端是容易過快減小數(shù)據(jù)尺寸,目前趨勢是用其他方法代替池化的作用,比如膠囊網(wǎng)絡(luò)推薦采用動態(tài)路由來代替?zhèn)鹘y(tǒng)池化方法,原因是池化會帶來一定程度上表征的位移不變性,傳統(tǒng)觀點認(rèn)為這是一個優(yōu)勢,但是膠囊網(wǎng)絡(luò)的作者Hinton et al.認(rèn)為圖像中位置信息是應(yīng)該保留的有價值信息,利用特別的聚類評分算法和動態(tài)路由的方式可以學(xué)習(xí)到更高級且靈活的表征,有望沖破目前卷積網(wǎng)絡(luò)構(gòu)架的瓶頸。
CNN總體來說是一種結(jié)構(gòu),其包含了多種網(wǎng)絡(luò)模型結(jié)構(gòu),數(shù)目繁多的的網(wǎng)絡(luò)模型結(jié)構(gòu)決定了數(shù)據(jù)擬合能力和泛化能力的差異。其中的復(fù)雜性對用戶的技術(shù)能力有較高的要求。此外,CNN仍然沒有很好的解決過擬合問題和計算速度較慢的問題。
該部分的核心參考文獻(xiàn):
《深度學(xué)習(xí)在圖像識別中的應(yīng)用研究綜述》鄭遠(yuǎn)攀,李廣陽,李曄.[J].計算機工程與應(yīng)用,2019,55(12):20-36.
深度學(xué)習(xí)技術(shù)在計算機圖像識別方面的領(lǐng)域應(yīng)用研究是目前以及可預(yù)見的未來的主流趨勢,在這里首先對深度學(xué)習(xí)的基本概念作一簡介,其次對深度學(xué)習(xí)常用的結(jié)構(gòu)模型進(jìn)行概述說明,主要簡述了深度信念網(wǎng)絡(luò)(DBN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、生成式對抗網(wǎng)絡(luò)(GAN)、膠囊網(wǎng)絡(luò)(CapsNet)以及對各個深度模型的改進(jìn)模型做一對比分析。
深度學(xué)習(xí)按照學(xué)習(xí)架構(gòu)可分為生成架構(gòu)、判別架構(gòu)及混合架構(gòu)。
其生成架構(gòu)模型主要包括:
受限波爾茲曼機、自編碼器、深層信念網(wǎng)絡(luò)等。判別架構(gòu)模型主要包括:深層前饋網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。混合架構(gòu)模型則是這兩種架構(gòu)的集合。深度學(xué)習(xí)按數(shù)據(jù)是否具有標(biāo)簽可分為非監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)。非監(jiān)督學(xué)習(xí)方法主要包括:受限玻爾茲曼機、自動編碼器、深層信念網(wǎng)絡(luò)、深層玻爾茲曼機等。
監(jiān)督學(xué)習(xí)方法主要包括:深層感知器、深層前饋網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、深層堆疊網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。大量實驗研究表明,監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)之間無明確的界限,如:深度信念網(wǎng)絡(luò)在訓(xùn)練過程中既用到監(jiān)督學(xué)習(xí)方法又涉及非監(jiān)督學(xué)習(xí)方法。
[1]周彬. 多視圖視覺檢測關(guān)鍵技術(shù)及其應(yīng)用研究[D].浙江大學(xué),2019.
[2]鄭遠(yuǎn)攀,李廣陽,李曄.深度學(xué)習(xí)在圖像識別中的應(yīng)用研究綜述[J].計算機工程與應(yīng)用,2019,55(12):20-36.
[3]逄淑超. 深度學(xué)習(xí)在計算機視覺領(lǐng)域的若干關(guān)鍵技術(shù)研究[D].吉林大學(xué),2017.
[4]段萌. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別方法研究[D].鄭州大學(xué),2017.
[5]李彥冬. 基于卷積神經(jīng)網(wǎng)絡(luò)的計算機視覺關(guān)鍵技術(shù)研究[D].電子科技大學(xué),2017.
[6]李衛(wèi). 深度學(xué)習(xí)在圖像識別中的研究及應(yīng)用[D].武漢理工大學(xué),2014.
[7]許可. 卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上的應(yīng)用的研究[D].浙江大學(xué),2012.
[8]CSDN、知乎、機器之心、維基百科
三、經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)簡介之【AlexNet】
論文中轉(zhuǎn) : ImageNet Classification with Deep Convolutional Neural Networks
自Le Net-5在1998年提出以后,時隔14年,AlexNet橫空問世,在2012年ImageNet競賽中以冠軍的成績笑傲群雄,也就是從那時起,更多更優(yōu)秀的網(wǎng)絡(luò)被相繼提出。論文第一作者是來自多倫多大學(xué)的Alex Krizhevsky,因此網(wǎng)絡(luò)稱為Alex Net。
在論文中,作者訓(xùn)練了一個大而深(相比于之前)的卷積網(wǎng)絡(luò)用于ImageNet比賽,將120萬高分辨圖像分為1000個類別。在測試集上,分別達(dá)到了37.5%的top-1錯誤率和17.0%的top-5錯誤率,超越了先前最好的網(wǎng)絡(luò)。網(wǎng)絡(luò)共有600萬參數(shù),65萬個神經(jīng)元,5個卷積層加3個全連接層,輸出為1000類別。為了防止過擬合,作者采用了數(shù)據(jù)擴(kuò)充和dropout正則法,實驗結(jié)果表明此方法非常有效;為了加快訓(xùn)練速度,作者采用了兩塊并行的GPU同時對特征圖進(jìn)行運算。
由于采用了雙GPU模式,所以結(jié)構(gòu)圖呈現(xiàn)的是上圖的樣子,下面引用一張博客作者 chenyuping666 文章的圖片,可以詳細(xì)的了解網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)與實現(xiàn)細(xì)節(jié)。
從上圖可以看到,輸入為227×227×3的圖像
在conv1中 ,卷積核大小為11×11,步長為4,通道數(shù)為96(每臺GPU運算48個,下同),經(jīng)過激活函數(shù)Relu激活后,采用最大池化(size=3×3,stride=2),標(biāo)準(zhǔn)化,輸出為27×27×96。
在conv2中 ,卷積核大小為5×5,步長為1,通道數(shù)256,先對輸入特征圖擴(kuò)展像素為31×31(pad=2),然后卷積,激活,池化(size=3×3,stride=2),標(biāo)準(zhǔn)化,輸出特征圖為13×13×256。
在conv3,conv4中 ,卷積核大小都為3×3,步長為1,pad=1,通道數(shù)為384,經(jīng)過激活后輸出特征圖為13×13×384。
在conv5中 ,卷積核大小都為3×3,步長為1,通道數(shù)為256,經(jīng)過激活,池化后輸出特征圖為6×6×256。
在fcn6,fcn7中 ,共有4096個神經(jīng)元,采用了dropout技術(shù)防止過擬合。
在fcn8 ,也就是最后一層,采用softmax輸出1000個類別。
相比于之前的網(wǎng)絡(luò),AlexNet為何能取得比較好的結(jié)果呢,從作者的論文中可以發(fā)現(xiàn)以下幾點:
3.1 非線性激活函數(shù)Relu
在之前一般使用tanh(x)或sigmoid作為激活函數(shù),但這些飽和的線性函數(shù)在梯度的計算上非常緩慢,并且容易產(chǎn)生梯度消失問題。Relu的出現(xiàn)使這些問題得到了有效的解決。在基于cifar-10數(shù)據(jù)集的標(biāo)準(zhǔn)四層網(wǎng)絡(luò)測試中,采用tanh和Relu作為激活函數(shù)使error rate達(dá)到0.25所用的時間,Relu比tanh快大約6倍。
3.2 多個GPU
作者認(rèn)為計算資源的大小限制了網(wǎng)絡(luò)的大小,要想訓(xùn)練大的網(wǎng)絡(luò)結(jié)構(gòu),必須擁有足夠的計算資源。120萬的數(shù)據(jù)集太大以至于單個GPU不足以匹配,因此作者將網(wǎng)絡(luò)的計算任務(wù)分配到兩個GPU上執(zhí)行。目前GPU特別適合做并行化,因為一個GPU可以直接從另一個GPU讀和寫內(nèi)容,而不需要經(jīng)過主機內(nèi)存。
3.3 局部響應(yīng)歸一化(LRN)
作者在文章中提出了Local Response Normalization的方法,分別將top-1和top-5錯誤率降低了1.4%和1.2%。作者在文中提到,如果訓(xùn)練樣本產(chǎn)生一個正輸入到Relu,網(wǎng)絡(luò)只會在那個特定神經(jīng)元上學(xué)習(xí),但是引入局部響應(yīng)正則化后,提高了網(wǎng)絡(luò)的泛化能力。這種響應(yīng)歸一化會產(chǎn)生一種由某一神經(jīng)元所激發(fā)的橫向抑制,為由使用不同卷積核計算的神經(jīng)元輸出之中的“big activities”創(chuàng)造競爭。
3.4 重疊池化
一般的池化操作因為沒有重疊,所以pool_size 和 stride是相等的。例如6×6的圖像在size=2×2的池化后,輸出為3×3,但是本文使用的size<stride,即取步長為1,輸出為4×4大小的圖像。這一方案分別使top-1和top-5錯誤率降低了0.4%和0.3%。
四、
以上就是關(guān)于圖神經(jīng)網(wǎng)絡(luò)論文推薦相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
創(chuàng)客貼作圖神器(創(chuàng)客貼作圖神器破解版)
開廣告制作公司需要什么設(shè)備(開廣告制作公司需要什么設(shè)備和設(shè)備)
寧波現(xiàn)代景觀設(shè)計效果圖(寧波現(xiàn)代景觀設(shè)計效果圖)