Ⅰ 卷積神經網路
一般由卷積層,匯聚層,和全連接層交叉堆疊而成,使用反向傳播演算法進行訓練(反向傳播,再重新看一下)
卷積神經網路有三個結構上的特性:局部連接,權重共享以及子采樣
濾波器filter 卷積核convolution kernel
局部連接,其實就是根據時間,權重遞減 最後為0 參數就傳播不到遠處了
局部連接 乘以 濾波器 得特徵映射
互相關,是一個衡量兩個序列相關性的函數,
互相關和卷積的區別在於 卷積核僅僅是否進行翻轉,因此互相關也可以稱為 不翻轉卷積
使用卷積 是為了進行特徵抽取,卷積核 是否進行翻轉和其特徵抽取的能力無關。
當卷積核是可以學習的參數,卷積和互相關是等價的,因此,其實兩者差不多。
Tips:P是代表特徵映射
Ⅱ 神經網路(Neural Network)
(1)結構:許多樹突(dendrite)用於輸入,一個軸突 (axon)用於輸出。
(2)特性:興奮性和傳導性。興奮性是指當信號量超過某個閾值時,細胞體就會被激活,產生電脈沖。傳導性是指電脈沖沿著軸突並通過突觸傳遞到其它神經元。
(3)有兩種狀態的機器:激活時為「是」,不激活時為「否」。神經細胞的狀態取決於從其他神經細胞接收到的信號量,以及突觸的性質(抑制或加強)。
(1)神經元——不重要
① 神經元是包含權重和偏置項的 函數 :接收數據後,執行一些計算,然後使用激活函數將數據限制在一個范圍內(多數情況下)。
② 單個神經元:線性可分的情況下,本質是一條直線, ,這條直線將數據劃分為兩類。而線性分類器本身就是一個單層神經網路。
③ 神經網路:非線性可分的情況下,神經網路通過多個隱層的方法來實現非線性的函數。
(2)權重/參數/連接(Weight)——最重要
每一個連接上都有一個權重。一個神經網路的訓練演算法就是讓權重的值調整到最佳,以使得整個網路的預測效果最好。
(3)偏置項(Bias Units)——必須
① 如果沒有偏置項,所有的函數都會經過原點。
② 正則化偏置會導致欠擬合:若對偏置正則化,會導致激活變得更加簡單,偏差就會上升,學習的能力就會下降。
③ 偏置的大小度量了神經元產生激勵(激活)的難易程度。
(1)定義:也稱為轉換函數,是一種將輸入 (input) 轉成輸出 (output) 的函數。
(2)作用:一般直線擬合的精確度要比曲線差很多,引入激活函數能給神經網路 增加一些非線性 的特性。
(3)性質:
① 非線性:導數不是常數,否則就退化成直線。對於一些畫一條直線仍然無法分開的問題,非線性可以把直線變彎,就能包羅萬象;
② 可微性:當優化方法是基於梯度的時候,處處可導為後向傳播演算法提供了核心條件;
③ 輸出范圍:一般限定在[0,1],使得神經元對一些比較大的輸入會比較穩定;
④ 非飽和性:飽和就是指,當輸入比較大的時候輸出幾乎沒變化,會導致梯度消失;
⑤ 單調性:導數符號不變,輸出不會上躥下跳,讓神經網路訓練容易收斂。
(1)線性函數 (linear function)—— purelin()
(2)符號函數 (sign function)—— hardlim()
① 如果z值高於閾值,則激活設置為1或yes,神經元將被激活。
② 如果z值低於閾值,則激活設置為0或no,神經元不會被激活。
(3)對率函數 (sigmoid function)—— logsig()
① 優點:光滑S型曲線連續可導,函數閾值有上限。
② 缺點:❶ 函數飽和使梯度消失,兩端梯度幾乎為0,更新困難,做不深;
❷ 輸出不是0中心,將影響梯度下降的運作,收斂異常慢;
❸ 冪運算相對來講比較耗時
(4)雙曲正切函數(hyperbolic tangent function)—— tansig()
① 優點:取值范圍0中心化,防止了梯度偏差
② 缺點:梯度消失現象依然存在,但相對於sigmoid函數問題較輕
(5)整流線性單元 ReLU 函數(rectified linear unit)
① 優點:❶ 分段線性函數,它的非線性性很弱,因此網路做得很深;
❷ 由於它的線性、非飽和性, 對於隨機梯度下降的收斂有巨大的加速作用;
② 缺點:❶ 當x<0,梯度都變成0,參數無法更新,也導致了數據多樣化的丟失;
❷ 輸出不是0中心
(6)滲漏型整流線性單元激活函數 Leaky ReLU 函數
① 優點:❶ 是為解決「ReLU死亡」問題的嘗試,在計算導數時允許較小的梯度;
❷ 非飽和的公式,不包含指數運算,計算速度快。
② 缺點:❶ 無法避免梯度爆炸問題; (沒有體現優於ReLU)
❷ 神經網路不學習 α 值。
(7)指數線性單元 ELU (Exponential Linear Units)
① 優點:❶ 能避免「死亡 ReLU」 問題;
❷ 能得到負值輸出,這能幫助網路向正確的方向推動權重和偏置變化;
❸ 在計算梯度時能得到激活,而不是讓它們等於 0。
② 缺點:❶ 由於包含指數運算,所以計算時間更長;
❷ 無法避免梯度爆炸問題; (沒有體現優於ReLU)
❸ 神經網路不學習 α 值。
(8)Maxout(對 ReLU 和 Leaky ReLU的一般化歸納)
① 優點:❶ 擁有ReLU的所有優點(線性和不飽和)
❷ 沒有ReLU的缺點(死亡的ReLU單元)
❸ 可以擬合任意凸函數
② 缺點 :參數數量增加了一倍。難訓練,容易過擬合
(9)Swish
① 優點:❶ 在負半軸也有一定的不飽和區,參數的利用率更大
❷ 無上界有下界、平滑、非單調
❸ 在深層模型上的效果優於 ReLU
每個層都包含一定數量的單元(units)。增加層可增加神經網路輸出的非線性。
(1)輸入層:就是接收原始數據,然後往隱層送
(2)輸出層:神經網路的決策輸出
(3)隱藏層:神經網路的關鍵。把前一層的向量變成新的向量,讓數據變得線性可分。
(1)結構:僅包含輸入層和輸出層,直接相連。
(2)作用:僅能表示 線性可分 函數或決策,且一定可以在有限的迭代次數中收斂。
(3)局限:可以建立與門、或門、非門等,但無法建立更為復雜的異或門(XOR),即兩個輸入相同時輸出1,否則輸出0。 (「AI winter」)
(1)目的:擬合某個函數 (兩層神經網路可以逼近任意連續函數)
(2)結構:包含輸入層、隱藏層和輸出層 ,由於從輸入到輸出的過程中不存在與模型自身的反饋連接,因此被稱為「前饋」。 (層與層之間全連接)
(3)作用: 非線性 分類、聚類、預測等,通過訓練,可以學習到數據中隱含的知識。
(4)局限:計算復雜、計算速度慢、容易陷入局部最優解,通常要將它們與其他網路結合形成新的網路。
(5)前向傳播演算法(Forward Propagation)
① 方法:從左至右逐級依賴的演算法模型,即網路如何根據輸入X得到輸出Y,最終的輸出值和樣本值作比較, 計算出誤差 。
② 目的:完成了一次正反向傳播,就完成了一次神經網路的訓練迭代。通過輸出層的誤差,快速求解對每個ω、b的偏導,利用梯度下降法,使Loss越來越小。
② 局限:為使最終的誤差達到最小,要不斷修改參數值,但神經網路的每條連接線上都有不同權重參數,修改這些參數變得棘手。
(6)誤差反向傳播(Back Propagation)
① 原理:梯度下降法求局部極值
② 方法:從後往前,從輸出層開始計算 L 對當前層的微分,獲得各層的誤差信號,此誤差信號即作為修正單元權值的依據。計算結束以後,所要的兩個參數矩陣的 梯度 就都有了。
③ 局限:如果激活函數是飽和的,帶來的缺陷就是系統迭代更新變慢,系統收斂就慢,當然這是可以有辦法彌補的,一種方法是使用 交叉熵函數 作為損失函數。
(1)原理:隨著網路的層數增加,每一層對於前一層次的抽象表示更深入。在神經網路中,每一層神經元學習到的是前一層神經元值的更抽象的表示。通過抽取更抽象的特徵來對事物進行區分,從而獲得更好的區分與分類能力。
(2)方法:ReLU函數在訓練多層神經網路時,更容易收斂,並且預測性能更好。
(3)優點:① 易於構建,表達能力強,基本單元便可擴展為復雜的非線性函數
② 並行性號,有利於在分布是系統上應用
(4)局限:① 優化演算法只能獲得局部極值,性能與初始值相關
② 調參理論性缺乏
③ 不可解釋,與實際任務關聯性模糊
(1)原理:由手工設計卷積核變成自動學習卷積核
(2)卷積(Convolutional layer): 輸入與卷積核相乘再累加 (內積、加權疊加)
① 公式:
② 目的:提取輸入的不同特徵,得到維度很大的 特徵圖(feature map)
③ 卷積核:需要訓練的參數。一般為奇數維,有中心像素點,便於定位卷積核
④ 特點:局部感知、參數變少、權重共享、分層提取
(3)池化(Pooling Layer):用更高層的抽象表達來表示主要特徵,又稱「降采樣」
① 分類: 最大 (出現與否)、平均(保留整體)、隨機(避免過擬合)
② 目的:降維,不需要訓練參數,得到新的、維度較小的特徵
(4)步長(stride):若假設輸入大小是n∗n,卷積核的大小是f∗f,步長是s,則最後的feature map的大小為o∗o,其中
(5)填充(zero-padding)
① Full模式:即從卷積核(fileter)和輸入剛相交開始做卷積,沒有元素的部分做補0操作。
② Valid模式:卷積核和輸入完全相交開始做卷積,這種模式不需要補0。
③ Same模式:當卷積核的中心C和輸入開始相交時做卷積。沒有元素的部分做補0操作。
(7)激活函數:加入非線性特徵
(8)全連接層(Fully-connected layer)
如果說卷積層、池化層和激活函數層等是將原始數據映射到隱層特徵空間(決定計算速度),全連接層則起到將學到的「分布式特徵表示」映射到樣本標記空間的作用(決定參數個數)。
參考:
[1] 神經網路(入門最詳細)_ruthy的博客-CSDN博客_神經網路演算法入門
[2] 神經網路(容易被忽視的基礎知識) - Evan的文章 - 知乎
[3] 人工神經網路——王的機器
[4] 如何簡單形象又有趣地講解神經網路是什麼? - 舒小曼的回答 - 知乎
[5] 神經網路15分鍾入門!足夠通俗易懂了吧 - Mr.括弧的文章 - 知乎
[6] 神經網路——最易懂最清晰的一篇文章_illikang的博客-CSDN博客_神經網路
[7] 直覺化深度學習教程——什麼是前向傳播——CSDN
[8] 「反向傳播演算法」過程及公式推導(超直觀好懂的Backpropagation)_aift的專欄-CSDN
[9] 卷積、反卷積、池化、反池化——CSDN
[10] 浙大機器學習課程- bilibili.com
Ⅲ 卷積神經網路
關於花書中卷積網路的筆記記錄於 https://www.jianshu.com/p/5a3c90ea0807 。
卷積神經網路(Convolutional Neural Network,CNN或ConvNet)是一種具有 局部連接、權重共享 等特性的深層前饋神經網路。卷積神經網路是受生物學上感受野的機制而提出。 感受野(Receptive Field) 主要是指聽覺、視覺等神經系統中一些神經元的特性,即 神經元只接受其所支配的刺激區域內的信號 。
卷積神經網路最早是主要用來處理圖像信息。如果用全連接前饋網路來處理圖像時,會存在以下兩個問題:
目前的卷積神經網路一般是由卷積層、匯聚層和全連接層交叉堆疊而成的前饋神經網路,使用反向傳播演算法進行訓練。 卷積神經網路有三個結構上的特性:局部連接,權重共享以及匯聚 。這些特性使卷積神經網路具有一定程度上的平移、縮放和旋轉不變性。
卷積(Convolution)是分析數學中一種重要的運算。在信號處理或圖像處理中,經常使用一維或二維卷積。
一維卷積經常用在信號處理中,用於計算信號的延遲累積。假設一個信號發生器每個時刻t 產生一個信號 ,其信息的衰減率為 ,即在 個時間步長後,信息為原來的 倍。假設 ,那麼在時刻t收到的信號 為當前時刻產生的信息和以前時刻延遲信息的疊加:
我們把 稱為 濾波器(Filter)或卷積核(Convolution Kernel) 。假設濾波器長度為 ,它和一個信號序列 的卷積為:
信號序列 和濾波器 的卷積定義為:
一般情況下濾波器的長度 遠小於信號序列長度 ,下圖給出一個一維卷積示例,濾波器為 :
二維卷積經常用在圖像處理中。因為圖像為一個兩維結構,所以需要將一維卷積進行擴展。給定一個圖像 和濾波器 ,其卷積為:
下圖給出一個二維卷積示例:
注意這里的卷積運算並不是在圖像中框定卷積核大小的方框並將各像素值與卷積核各個元素相乘並加和,而是先把卷積核旋轉180度,再做上述運算。
在圖像處理中,卷積經常作為特徵提取的有效方法。一幅圖像在經過卷積操作後得到結果稱為 特徵映射(Feature Map) 。
最上面的濾波器是常用的高斯濾波器,可以用來對圖像進行 平滑去噪 ;中間和最下面的過濾器可以用來 提取邊緣特徵 。
在機器學習和圖像處理領域,卷積的主要功能是在一個圖像(或某種特徵)上滑動一個卷積核(即濾波器),通過卷積操作得到一組新的特徵。在計算卷積的過程中,需要進行卷積核翻轉(即上文提到的旋轉180度)。 在具體實現上,一般會以互相關操作來代替卷積,從而會減少一些不必要的操作或開銷。
互相關(Cross-Correlation)是一個衡量兩個序列相關性的函數,通常是用滑動窗口的點積計算來實現 。給定一個圖像 和卷積核 ,它們的互相關為:
互相關和卷積的區別僅在於卷積核是否進行翻轉。因此互相關也可以稱為不翻轉卷積 。當卷積核是可學習的參數時,卷積和互相關是等價的。因此,為了實現上(或描述上)的方便起見,我們用互相關來代替卷積。事實上,很多深度學習工具中卷積操作其實都是互相關操作。
在卷積的標準定義基礎上,還可以引入濾波器的 滑動步長 和 零填充 來增加卷積多樣性,更靈活地進行特徵抽取。
濾波器的步長(Stride)是指濾波器在滑動時的時間間隔。
零填充(Zero Padding)是在輸入向量兩端進行補零。
假設卷積層的輸入神經元個數為 ,卷積大小為 ,步長為 ,神經元兩端各填補 個零,那麼該卷積層的神經元數量為 。
一般常用的卷積有以下三類:
因為卷積網路的訓練也是基於反向傳播演算法,因此我們重點關注卷積的導數性質:
假設 。
, , 。函數 為一個標量函數。
則由 有:
可以看出, 關於 的偏導數為 和 的卷積 :
同理得到:
當 或 時, ,即相當於對 進行 的零填充。從而 關於 的偏導數為 和 的寬卷積 。
用互相關的「卷積」表示,即為(注意 寬卷積運算具有交換性性質 ):
在全連接前饋神經網路中,如果第 層有 個神經元,第 層有 個神經元,連接邊有 個,也就是權重矩陣有 個參數。當 和 都很大時,權重矩陣的參數非常多,訓練的效率會非常低。
如果採用卷積來代替全連接,第 層的凈輸入 為第 層活性值 和濾波器 的卷積,即:
根據卷積的定義,卷積層有兩個很重要的性質:
由於局部連接和權重共享,卷積層的參數只有一個m維的權重 和1維的偏置 ,共 個參數。參數個數和神經元的數量無關。此外,第 層的神經元個數不是任意選擇的,而是滿足 。
卷積層的作用是提取一個局部區域的特徵,不同的卷積核相當於不同的特徵提取器。
特徵映射(Feature Map)為一幅圖像(或其它特徵映射)在經過卷積提取到的特徵,每個特徵映射可以作為一類抽取的圖像特徵。 為了提高卷積網路的表示能力,可以在每一層使用多個不同的特徵映射,以更好地表示圖像的特徵。
在輸入層,特徵映射就是圖像本身。如果是灰度圖像,就是有一個特徵映射,深度 ;如果是彩色圖像,分別有RGB三個顏色通道的特徵映射,深度 。
不失一般性,假設一個卷積層的結構如下:
為了計算輸出特徵映射 ,用卷積核 分別對輸入特徵映射 進行卷積,然後將卷積結果相加,並加上一個標量偏置 得到卷積層的凈輸入 再經過非線性激活函數後得到輸出特徵映射 。
在輸入為 ,輸出為 的卷積層中,每個輸出特徵映射都需要 個濾波器以及一個偏置。假設每個濾波器的大小為 ,那麼共需要 個參數。
匯聚層(Pooling Layer)也叫子采樣層(Subsampling Layer),其作用是進行特徵選擇,降低特徵數量,並從而減少參數數量。
常用的匯聚函數有兩種:
其中 為區域 內每個神經元的激活值。
可以看出,匯聚層不但可以有效地減少神經元的數量,還可以使得網路對一些小的局部形態改變保持不變性,並擁有更大的感受野。
典型的匯聚層是將每個特徵映射劃分為 大小的不重疊區域,然後使用最大匯聚的方式進行下采樣。匯聚層也可以看做是一個特殊的卷積層,卷積核大小為 ,步長為 ,卷積核為 函數或 函數。過大的采樣區域會急劇減少神經元的數量,會造成過多的信息損失。
一個典型的卷積網路是由卷積層、匯聚層、全連接層交叉堆疊而成。
目前常用卷積網路結構如圖所示,一個卷積塊為連續 個卷積層和 個匯聚層( 通常設置為 , 為 或 )。一個卷積網路中可以堆疊 個連續的卷積塊,然後在後面接著 個全連接層( 的取值區間比較大,比如 或者更大; 一般為 )。
目前,整個網路結構 趨向於使用更小的卷積核(比如 和 )以及更深的結構(比如層數大於50) 。此外,由於卷積的操作性越來越靈活(比如不同的步長),匯聚層的作用變得也越來越小,因此目前比較流行的卷積網路中, 匯聚層的比例也逐漸降低,趨向於全卷積網路 。
在全連接前饋神經網路中,梯度主要通過每一層的誤差項 進行反向傳播,並進一步計算每層參數的梯度。在卷積神經網路中,主要有兩種不同功能的神經層:卷積層和匯聚層。而參數為卷積核以及偏置,因此 只需要計算卷積層中參數的梯度。
不失一般性,第 層為卷積層,第 層的輸入特徵映射為 ,通過卷積計算得到第 層的特徵映射凈輸入 ,第 層的第 個特徵映射凈輸入
由 得:
同理可得,損失函數關於第 層的第 個偏置 的偏導數為:
在卷積網路中,每層參數的梯度依賴其所在層的誤差項 。
卷積層和匯聚層中,誤差項的計算有所不同,因此我們分別計算其誤差項。
第 層的第 個特徵映射的誤差項 的具體推導過程如下:
其中 為第 層使用的激活函數導數, 為上采樣函數(upsampling),與匯聚層中使用的下采樣操作剛好相反。如果下采樣是最大匯聚(max pooling),誤差項 中每個值會直接傳遞到上一層對應區域中的最大值所對應的神經元,該區域中其它神經元的誤差項的都設為0。如果下采樣是平均匯聚(meanpooling),誤差項 中每個值會被平均分配到上一層對應區域中的所有神經元上。
第 層的第 個特徵映射的誤差項 的具體推導過程如下:
其中 為寬卷積。
LeNet-5雖然提出的時間比較早,但是是一個非常成功的神經網路模型。基於LeNet-5 的手寫數字識別系統在90年代被美國很多銀行使用,用來識別支票上面的手寫數字。LeNet-5 的網路結構如圖:
不計輸入層,LeNet-5共有7層,每一層的結構為:
AlexNet是第一個現代深度卷積網路模型,其首次使用了很多現代深度卷積網路的一些技術方法,比如採用了ReLU作為非線性激活函數,使用Dropout防止過擬合,使用數據增強來提高模型准確率等。AlexNet 贏得了2012 年ImageNet 圖像分類競賽的冠軍。
AlexNet的結構如圖,包括5個卷積層、3個全連接層和1個softmax層。因為網路規模超出了當時的單個GPU的內存限制,AlexNet 將網路拆為兩半,分別放在兩個GPU上,GPU間只在某些層(比如第3層)進行通訊。
AlexNet的具體結構如下:
在卷積網路中,如何設置卷積層的卷積核大小是一個十分關鍵的問題。 在Inception網路中,一個卷積層包含多個不同大小的卷積操作,稱為Inception模塊。Inception網路是由有多個inception模塊和少量的匯聚層堆疊而成 。
v1版本的Inception模塊,採用了4組平行的特徵抽取方式,分別為1×1、3× 3、5×5的卷積和3×3的最大匯聚。同時,為了提高計算效率,減少參數數量,Inception模塊在進行3×3、5×5的卷積之前、3×3的最大匯聚之後,進行一次1×1的卷積來減少特徵映射的深度。如果輸入特徵映射之間存在冗餘信息, 1×1的卷積相當於先進行一次特徵抽取 。
Ⅳ ENAS:首個權值共享的神經網路搜索方法,千倍加速 | ICML 2018
論文: Efficient Neural Architecture Search via Parameter Sharing
神經網路結構搜索(NAS)目前在圖像分類的模型結構設計上有很大的成果,但十分耗時,主要花在搜索到的網路(child model)的訓練。論文的主要工作是提出 Efficient Neural Architecture Search (ENAS),強制所有的child model進行權重共享,避免從零開始訓練,從而達到提高效率的目的。雖然不同的模型使用不同的權重,但從遷移學習和多任務學習的研究結果來看,將當前任務的模型A學習到的參數應用於別的任務的模型B是可行的。從實驗看來,不僅共享參數是可行的,而且能帶來很強的表現,實驗僅用單張1080Ti,相對與NAS有1000x倍加速
NAS的搜索結果可以看作是大圖中的子圖,可以用單向無環圖(DAG)來表示搜索空間,每個搜索的結構可以認為是圖2的DAG一個子網。ENAS定義的DAG為所有子網的疊加,其中每個節點的每種計算類型都有自己的參數,當特定的計算方法激活時,參數才使用。因此,ENAS的設計允許子網進行參數共享,下面會介紹具體細節
為了設計循環單元(recurrent cell),採用 節點的DAG,節點代表計算類型,邊代表信息流向,ENAS的controller也是RNN,主要定義:1) 激活的邊 2) 每個節點的計算類型。在NAS(Zoph 2017),循環單元的搜索空間在預先定義結構的拓撲結構(二叉樹)上,僅學習每個節點的計算類型,而NAS則同時學習拓撲結構和計算類型,更靈活
為了創建循環單元,the controller RNN首先採樣 個block的結果,取 , 為當前單元輸入信息(例如word embedding), 為前一個time step的隱藏層輸出,具體步驟如下:
注意到每對節點( )都有獨立的參數 ,根據選擇的索引決定使用哪個參數,因此,ENAS的所有循環單元能同一個共享參數集合。論文的搜索空間包含指數數量的配置,假設有N個節點和4種激活函數,則共有 種配置
ENAS的controller為100個隱藏單元的LSTM,通過softmax分類器以自回歸(autoregressive fashion)的方式進行選擇的決定,上一個step的輸出作為下一個step的輸入embedding,controller的第一個step則接受空embedding輸入。學習的參數主要有controller LSTM的參數 和子網的共享權重 ,ENAS的訓練分兩個交叉的階段,第一階段在完整的訓練集上進行共享權重 學習,第二階段訓練controller LSTM的參數
固定controller的策略 ,然後進行 進行隨機梯度下降(SGD)來最小化交叉熵損失函數的期望 , 為模型 在mini-batch上的交叉熵損失,模型 從 采樣而來
梯度的計算如公式1, 上從 采樣來的,集合所有模型的梯度進行更新。公式1是梯度的無偏估計,但有一個很高的方差(跟NAS一樣,采樣的模型性能差異),而論文發現,當 時,訓練的效果還行
固定 然後更新策略參數 ,目標是最大化期望獎勵 ,使用Adam優化器,梯度計算使用Williams的REINFORCE方法,加上指數滑動平均來降低方差, 的計算在獨立的驗證集上進行,整體基本跟Zoph的NAS一樣
訓練好的ENAS進行新模型構造,首先從訓練的策略 采樣幾個新的結構,對於每個采樣的模型,計算其在驗證集的minibatch上的准確率,取准確率最高的模型進行從零開始的重新訓練,可以對所有采樣的網路進行從零訓練,但是論文的方法准確率差不多,經濟效益更大
對於創建卷積網路,the controller每個decision block進行兩個決定,這些決定構成卷積網路的一層:
做 次選擇產生 層的網路,共 種網路,在實驗中,L取12
NASNet提出設計小的模塊,然後堆疊成完整的網路,主要設計convolutional cell和rection cell
使用ENAS生成convolutional cell,構建B節點的DAG來代表單元內的計算,其中node 1和node 2代表單元輸入,為完整網路中前兩個單元的輸出,剩餘的 個節點,預測兩個選擇:1) 選擇兩個之前的節點作為當前節點輸入 2) 選擇用於兩個輸入的計算類型,共5種運算元:identity, separable convolution with kernel size 3 × 3 and 5 × 5, and average pooling and max pooling with kernel size 3×3,然後將運算元結果相加。對於 ,搜索過程如下:
對於rection cell,可以同樣地使用上面的搜索空間生成: 1) 如圖5采樣一個計算圖 2) 將所有計算的stride改為2。這樣rection cell就能將輸入縮小為1/2,controller共預測 blocks
最後計算下搜索空間的復雜度,對於node i ,troller選擇前 個節點中的兩個,然後選擇五種運算元的兩種,共 種坑的單元。因為兩種單元是獨立的,所以搜索空間的大小最終為 ,對於 ,大約 種網路
節點的計算做了一點修改,增加highway connections,例如 修改為 ,其中 , 為elementwise乘法。搜索到的結果如圖6所示,有意思的是:1) 激活方法全部為tanh或ReLU 2) 結構可能為局部最優,隨機替換節點的激活函數都會造成大幅的性能下降 3) 搜索的輸出是6個node的平均,與mixture of contexts(MoC)類似
單1080Ti訓練了10小時,Penn Treebank上的結果如表1所示,PPL越低則性能越好,可以看到ENAS不準復雜度低,參數量也很少
表2的第一塊為最好的分類網路DenseNet的結構,第二塊為ENAS設計整個卷積網路的結果(感覺這里不應有micro search space),第三塊為設計單元的結果
全網路搜索的最優結構如圖7所示,達到4.23%錯誤率,比NAS的效果要好,大概單卡搜索7小時,相對NAS有50000x倍加速
單元搜索的結構如圖8所示,單卡搜索11.5小時, ,錯誤率為3.54%,加上CutOut增強後比NASNet要好。論文發現ENAS搜索的結構都是局部最優的,修改都會帶來性能的降低,而ENAS不採樣多個網路進行訓練,這個給NAS帶來很大性能的提升
NAS是自動設計網路結構的重要方法,但需要耗費巨大的資源,導致不能廣泛地應用,而論文提出的 Efficient Neural Architecture Search (ENAS),在搜索時對子網的參數進行共享,相對於NAS有超過1000x倍加速,單卡搜索不到半天,而且性能並沒有降低,十分值得參考
Ⅳ CNN基本運算元與操作
卷積神經網路 (Convolutional Neural Networks,CNN)是一種前饋神經網路。卷積神經網路是受生物學上感受野(Receptive Field)的機制而提出的。感受野主要是指聽覺系統、本體感覺系統和視覺系統中神經元的一些性質。比如在視覺神經系統中,一個神經元的感受野是指視網膜上的特定區域,只有這個區域內的刺激才能夠激活該神經元。
卷積神經網路有三個結構上的特性: 局部連接 , 權重共享 以及空間或時間上的 次采樣 。詳細介紹請見 卷積神經網路
1、卷積層 詳情參考 卷積層(Convolution Layer)
2、全連接層 詳情參考 全連接層 (Connected Layer) 作用:降維
3、Softmax Layer 詳情參考 Softmax Layer
4、 CNN池化
最大值池化 詳情參考 最大池化層(Maxpool Layer)
平局值池化 詳情參考 平均值池化
Golbal Average Pooling 詳情參考 Golbal Average Pooling
Spatial Pyramid Pooling 詳情參考 Spatial Pyramid Pooling
5、dropout layer:目的是為了防止CNN 過擬合,主要用於訓練過程,推理過程不需要 詳情參考 Dropout Layer
6、 激活函數 :線性激活函數與非線性激活函數
非線性激活函數,可以使神經網路隨意逼近復雜函數:Sigmoid、Tanh、ReLU
Sigmoid:詳情參考 Sigmoid
ReLU:詳情參考 ReLU
Tanh:詳情參考 Tanh
7、 loss函數
8、 梯度下降
Ⅵ 一文看懂四種基本的神經網路架構
原文鏈接:
http://blackblog.tech/2018/02/23/Eight-Neural-Network/
更多干貨就在我的個人博客 http://blackblog.tech 歡迎關注
剛剛入門神經網路,往往會對眾多的神經網路架構感到困惑,神經網路看起來復雜多樣,但是這么多架構無非也就是三類,前饋神經網路,循環網路,對稱連接網路,本文將介紹四種常見的神經網路,分別是CNN,RNN,DBN,GAN。通過這四種基本的神經網路架構,我們來對神經網路進行一定的了解。
神經網路是機器學習中的一種模型,是一種模仿動物神經網路行為特徵,進行分布式並行信息處理的演算法數學模型。這種網路依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。
一般來說,神經網路的架構可以分為三類:
前饋神經網路:
這是實際應用中最常見的神經網路類型。第一層是輸入,最後一層是輸出。如果有多個隱藏層,我們稱之為「深度」神經網路。他們計算出一系列改變樣本相似性的變換。各層神經元的活動是前一層活動的非線性函數。
循環網路:
循環網路在他們的連接圖中定向了循環,這意味著你可以按照箭頭回到你開始的地方。他們可以有復雜的動態,使其很難訓練。他們更具有生物真實性。
循環網路的目的使用來處理序列數據。在傳統的神經網路模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連接的,每層之間的節點是無連接的。但是這種普通的神經網路對於很多問題卻無能無力。例如,你要預測句子的下一個單詞是什麼,一般需要用到前面的單詞,因為一個句子中前後單詞並不是獨立的。
循環神經網路,即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中,即隱藏層之間的節點不再無連接而是有連接的,並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。
對稱連接網路:
對稱連接網路有點像循環網路,但是單元之間的連接是對稱的(它們在兩個方向上權重相同)。比起循環網路,對稱連接網路更容易分析。這個網路中有更多的限制,因為它們遵守能量函數定律。沒有隱藏單元的對稱連接網路被稱為「Hopfield 網路」。有隱藏單元的對稱連接的網路被稱為玻爾茲曼機。
其實之前的帖子講過一些關於感知機的內容,這里再復述一下。
首先還是這張圖
這是一個M-P神經元
一個神經元有n個輸入,每一個輸入對應一個權值w,神經元內會對輸入與權重做乘法後求和,求和的結果與偏置做差,最終將結果放入激活函數中,由激活函數給出最後的輸出,輸出往往是二進制的,0 狀態代表抑制,1 狀態代表激活。
可以把感知機看作是 n 維實例空間中的超平面決策面,對於超平面一側的樣本,感知器輸出 1,對於另一側的實例輸出 0,這個決策超平面方程是 w⋅x=0。 那些可以被某一個超平面分割的正反樣例集合稱為線性可分(linearly separable)樣例集合,它們就可以使用圖中的感知機表示。
與、或、非問題都是線性可分的問題,使用一個有兩輸入的感知機能容易地表示,而異或並不是一個線性可分的問題,所以使用單層感知機是不行的,這時候就要使用多層感知機來解決疑惑問題了。
如果我們要訓練一個感知機,應該怎麼辦呢?
我們會從隨機的權值開始,反復地應用這個感知機到每個訓練樣例,只要它誤分類樣例就修改感知機的權值。重復這個過程,直到感知機正確分類所有的樣例。每一步根據感知機訓練法則來修改權值,也就是修改與輸入 xi 對應的權 wi,法則如下:
這里 t 是當前訓練樣例的目標輸出,o 是感知機的輸出,η 是一個正的常數稱為學習速率。學習速率的作用是緩和每一步調整權的程度,它通常被設為一個小的數值(例如 0.1),而且有時會使其隨著權調整次數的增加而衰減。
多層感知機,或者說是多層神經網路無非就是在輸入層與輸出層之間加了多個隱藏層而已,後續的CNN,DBN等神經網路只不過是將重新設計了每一層的類型。感知機可以說是神經網路的基礎,後續更為復雜的神經網路都離不開最簡單的感知機的模型,
談到機器學習,我們往往還會跟上一個詞語,叫做模式識別,但是真實環境中的模式識別往往會出現各種問題。比如:
圖像分割:真實場景中總是摻雜著其它物體。很難判斷哪些部分屬於同一個對象。對象的某些部分可以隱藏在其他對象的後面。
物體光照:像素的強度被光照強烈影響。
圖像變形:物體可以以各種非仿射方式變形。例如,手寫也可以有一個大的圓圈或只是一個尖頭。
情景支持:物體所屬類別通常由它們的使用方式來定義。例如,椅子是為了讓人們坐在上面而設計的,因此它們具有各種各樣的物理形狀。
卷積神經網路與普通神經網路的區別在於,卷積神經網路包含了一個由卷積層和子采樣層構成的特徵抽取器。在卷積神經網路的卷積層中,一個神經元只與部分鄰層神經元連接。在CNN的一個卷積層中,通常包含若干個特徵平面(featureMap),每個特徵平面由一些矩形排列的的神經元組成,同一特徵平面的神經元共享權值,這里共享的權值就是卷積核。卷積核一般以隨機小數矩陣的形式初始化,在網路的訓練過程中卷積核將學習得到合理的權值。共享權值(卷積核)帶來的直接好處是減少網路各層之間的連接,同時又降低了過擬合的風險。子采樣也叫做池化(pooling),通常有均值子采樣(mean pooling)和最大值子采樣(max pooling)兩種形式。子采樣可以看作一種特殊的卷積過程。卷積和子采樣大大簡化了模型復雜度,減少了模型的參數。
卷積神經網路由三部分構成。第一部分是輸入層。第二部分由n個卷積層和池化層的組合組成。第三部分由一個全連結的多層感知機分類器構成。
這里舉AlexNet為例:
·輸入:224×224大小的圖片,3通道
·第一層卷積:11×11大小的卷積核96個,每個GPU上48個。
·第一層max-pooling:2×2的核。
·第二層卷積:5×5卷積核256個,每個GPU上128個。
·第二層max-pooling:2×2的核。
·第三層卷積:與上一層是全連接,3*3的卷積核384個。分到兩個GPU上個192個。
·第四層卷積:3×3的卷積核384個,兩個GPU各192個。該層與上一層連接沒有經過pooling層。
·第五層卷積:3×3的卷積核256個,兩個GPU上個128個。
·第五層max-pooling:2×2的核。
·第一層全連接:4096維,將第五層max-pooling的輸出連接成為一個一維向量,作為該層的輸入。
·第二層全連接:4096維
·Softmax層:輸出為1000,輸出的每一維都是圖片屬於該類別的概率。
卷積神經網路在模式識別領域有著重要應用,當然這里只是對卷積神經網路做了最簡單的講解,卷積神經網路中仍然有很多知識,比如局部感受野,權值共享,多卷積核等內容,後續有機會再進行講解。
傳統的神經網路對於很多問題難以處理,比如你要預測句子的下一個單詞是什麼,一般需要用到前面的單詞,因為一個句子中前後單詞並不是獨立的。RNN之所以稱為循環神經網路,即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中,即隱藏層之間的節點不再無連接而是有連接的,並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上,RNN能夠對任何長度的序列數據進行處理。
這是一個簡單的RNN的結構,可以看到隱藏層自己是可以跟自己進行連接的。
那麼RNN為什麼隱藏層能夠看到上一刻的隱藏層的輸出呢,其實我們把這個網路展開來開就很清晰了。
從上面的公式我們可以看出,循環層和全連接層的區別就是循環層多了一個權重矩陣 W。
如果反復把式2帶入到式1,我們將得到:
在講DBN之前,我們需要對DBN的基本組成單位有一定的了解,那就是RBM,受限玻爾茲曼機。
首先什麼是玻爾茲曼機?
[圖片上傳失敗...(image-d36b31-1519636788074)]
如圖所示為一個玻爾茲曼機,其藍色節點為隱層,白色節點為輸入層。
玻爾茲曼機和遞歸神經網路相比,區別體現在以下幾點:
1、遞歸神經網路本質是學習一個函數,因此有輸入和輸出層的概念,而玻爾茲曼機的用處在於學習一組數據的「內在表示」,因此其沒有輸出層的概念。
2、遞歸神經網路各節點鏈接為有向環,而玻爾茲曼機各節點連接成無向完全圖。
而受限玻爾茲曼機是什麼呢?
最簡單的來說就是加入了限制,這個限制就是將完全圖變成了二分圖。即由一個顯層和一個隱層構成,顯層與隱層的神經元之間為雙向全連接。
h表示隱藏層,v表示顯層
在RBM中,任意兩個相連的神經元之間有一個權值w表示其連接強度,每個神經元自身有一個偏置系數b(對顯層神經元)和c(對隱層神經元)來表示其自身權重。
具體的公式推導在這里就不展示了
DBN是一個概率生成模型,與傳統的判別模型的神經網路相對,生成模型是建立一個觀察數據和標簽之間的聯合分布,對P(Observation|Label)和 P(Label|Observation)都做了評估,而判別模型僅僅而已評估了後者,也就是P(Label|Observation)。
DBN由多個限制玻爾茲曼機(Restricted Boltzmann Machines)層組成,一個典型的神經網路類型如圖所示。這些網路被「限制」為一個可視層和一個隱層,層間存在連接,但層內的單元間不存在連接。隱層單元被訓練去捕捉在可視層表現出來的高階數據的相關性。
生成對抗網路其實在之前的帖子中做過講解,這里在說明一下。
生成對抗網路的目標在於生成,我們傳統的網路結構往往都是判別模型,即判斷一個樣本的真實性。而生成模型能夠根據所提供的樣本生成類似的新樣本,注意這些樣本是由計算機學習而來的。
GAN一般由兩個網路組成,生成模型網路,判別模型網路。
生成模型 G 捕捉樣本數據的分布,用服從某一分布(均勻分布,高斯分布等)的雜訊 z 生成一個類似真實訓練數據的樣本,追求效果是越像真實樣本越好;判別模型 D 是一個二分類器,估計一個樣本來自於訓練數據(而非生成數據)的概率,如果樣本來自於真實的訓練數據,D 輸出大概率,否則,D 輸出小概率。
舉個例子:生成網路 G 好比假幣製造團伙,專門製造假幣,判別網路 D 好比警察,專門檢測使用的貨幣是真幣還是假幣,G 的目標是想方設法生成和真幣一樣的貨幣,使得 D 判別不出來,D 的目標是想方設法檢測出來 G 生成的假幣。
傳統的判別網路:
生成對抗網路:
下面展示一個cDCGAN的例子(前面帖子中寫過的)
生成網路
判別網路
最終結果,使用MNIST作為初始樣本,通過學習後生成的數字,可以看到學習的效果還是不錯的。
本文非常簡單的介紹了四種神經網路的架構,CNN,RNN,DBN,GAN。當然也僅僅是簡單的介紹,並沒有深層次講解其內涵。這四種神經網路的架構十分常見,應用也十分廣泛。當然關於神經網路的知識,不可能幾篇帖子就講解完,這里知識講解一些基礎知識,幫助大家快速入(zhuang)門(bi)。後面的帖子將對深度自動編碼器,Hopfield 網路長短期記憶網路(LSTM)進行講解。
Ⅶ 人工智慧CNN卷積神經網路如何共享權值
首先權值共享就是濾波器共享,濾波器的參數是固定的,即是用相同的濾波器去掃一遍圖像,提取一次特徵特徵,得到feature map。在卷積網路中,學好了一個濾波器,就相當於掌握了一種特徵,這個濾波器在圖像中滑動,進行特徵提取,然後所有進行這樣操作的區域都會被採集到這種特徵,就好比上面的水平線。
Ⅷ 哪些神經網路結構會發生權重共享
說的確定應該就是訓練方法吧,神經網路的權值不是人工給定的。而是用訓練集(包括輸入和輸出)訓練,用訓練集訓練一遍稱為一個epoch,一般要許多epoch才行,目的是使得目標與訓練結果的誤差(一般採用均方誤差)小到一個給定的閾值。以上所說是有監督的學習方法,還有無監督的學習方法。
Ⅸ MPNN:消息傳遞神經網路
近年來,隨著量子化學計算和分子動力學模擬等實驗的展開產生了巨大的數據量,大多數經典的機器學習技術都無法有效利用目前的數據。而原子系統的對稱性表明,能夠應用於網路圖中的神經網路也能夠應用於分子模型。所以,找到一個更加強大的模型來解決目前的化學任務可以等價於找到一個適用於網路圖的模型。
本文的目標是證明:能夠應用於化學預測任務的模型可以直接從分子圖中學習到分子的特徵,並且不受到圖同構的影響。本文提出的MPNN是一種用於圖上監督學習的框架,能夠概括之前一些文獻提出的一些方法,並且能夠按照這個框架提出一些新的架構。本文提出的新的MPNN變種基於實際的應用場景:預測有機小分子的量子力學性質。並且,作者希望以後提出的新的MPNN變種能夠從實際的應用出發,從實際應用中獲得啟發。
本文以QM9作為benchmark數據集,這個數據集由130k個分子組成,每個分子有13個性質,這些性質是通過一種計算昂貴的量子力學模擬方法(DFT)近似生成的,相當於13個回歸任務。這些任務似乎代表了許多重要的化學預測問題,並且目前對許多現有方法來說是困難的。
本文提出的模型的性能度量採用兩種形式:
①DFT近似的平均估計誤差;
②化學界已經確立的目標誤差,稱為「化學精度」。
本文介紹了能夠應用MPNN框架的8篇文獻,為了簡便起見,以處理無向圖 為例,無向圖 包含節點特徵 和邊的特徵 ,將這種形式推廣到有向重圖是不重要的。MPNN前向傳播的過程包含兩個階段,即消息傳遞階段(message passing phase)和讀出階段(readout phase)。消息傳遞階段運行 個時間步並且依賴消息函數 以及節點更新函數 。在消息傳遞階段,每個節點的隱狀態 都會根據消息 進行更新,具體過程是:
代表節點 的鄰居節點集合。讀出階段使用某種讀出函數 來為整個圖計算一個特徵向量:
都是用來學習的可微函數。 作用於節點狀態集合,並且必須對節點狀態的排列保持不變,以使MPNN對圖同構保持不變。注意MPNN也可以學習邊的特徵,這可以通過為每條邊引入隱狀態 並應用前面的兩個過程來實現。接下來,我們通過指定所使用的消息函數 、頂點更新函數 和讀出函數 來定義以前文獻中的模型。
本文提出的模型採用的消息函數是:
代表拼接。節點更新函數是:
是節點 的度, 對應於時間步 以及節點度 的學習矩陣。讀出函數將之前所有隱狀態 進行連接:
是一個神經網路, 是時間步 的一個學習矩陣。
這樣的消息傳遞的方法可能有問題,因為最終得到的消息向量為 ,這是邊和節點狀態向量的加和,缺乏邊和節點狀態向量的交互。
消息函數為:
是特定於邊的標簽的學習矩陣(這個模型假設邊有離散的標簽)。更新函數如下:
GRU就是門控循環單元,一種循環神經網路,對於每個時間步進行權重共享,也就是說每個時間步共用同一個更新函數。最後,讀出函數:
代表神經網路, 代表哈達瑪積。
這個模型考慮了兩種情況,一種是每個節點都有自己的目標,另一種是有一個graph level的目標。它還考慮了在每個時間步驟中存在node level影響的情況,在這種情況下,更新函數將 連接作為輸入,其中 是一個外部向量,表示頂點 受到的外部影響。消息函數 是一個神經網路,使用拼接向量 作為輸入,節點更新函數 也是一個神經網路,使用 作為輸入。最終讀出函數得到一個graph level的輸出: ,這里 是一個神經網路。注意,這個模型只定義了 的情況。
這個模型與之前的MPNNs稍微有一些不同,是因為它引入了邊的表示 ,並且會在消息傳遞階段進行更新。消息函數為:
節點更新函數為:
同樣的 代表拼接, 代表ReLU激活函數, 是學習權重矩陣。邊狀態更新的方式是:
都是學習矩陣。
消息函數為:
是矩陣, 是偏置向量。更新函數為:
讀出函數使用單個隱層神經網路獨立地通過每個節點,並對輸出進行求和:
8篇文獻中有3篇屬於這一類。其中兩篇採用消息函數:
矩陣 通過拉普拉斯矩陣的特徵向量和模型的學習參數來參數化。更新函數為:
代表非線性函數,比如ReLU激活函數。
另一篇文獻採用消息函數:
這里 。節點更新函數為:
本文以前述GG-NN作為baseline進行改進,提出一種新的MPNN變種。下文中以 代表節點特徵的維度,以 代表圖的節點的數量。這一變種適用於有向圖,這意味著入邊和出邊有分別的信息通道,那麼信息 由 和 拼接而成,當我們將模型應用無向圖時,就把無向圖的邊看做兩條邊,包含一條入邊,一條出邊,有相同的標簽,這樣處理的方式意味著信息通道的大小是 而不是 。
模型的輸入是每個節點的特徵向量 以及鄰接矩陣 ,鄰接矩陣 具有向量分量,表示分子中的不同化學鍵以及兩個原子之間的成對空間距離。初始狀態 是原子輸入特徵集合 ,並且需要padding到維度 。在實驗中的每個時間步 都要進行權重共享,並且更新函數採用GRU。
GG-NN原本採用的消息函數,採用矩陣相乘的方式(注意原來的GG-NN的邊有離散的標簽,而現在我們假設的邊有一個特徵向量 ):
是特定於邊的標簽的學習矩陣。為了兼容邊特徵,本文提出了新的消息函數:
是一個神經網路,將邊的特徵向量 映射到一個 的矩陣。上述兩種消息函數的特點是消息只依賴於 和 而不依賴於 ,如果消息同時依賴目標節點與源節點,那麼應該是更加高效的,可以嘗試以下這種消息函數:
這里 是一個神經網路。
對於有向圖,一共有兩個消息函數 和 ,對於邊 應用哪個消息函數取決於邊的方向。
本文探索了兩種方式來改變模型中信息的傳遞。第一種是為未連接的節點對添加一個單獨的「虛擬」邊類型。這一處理可以在預處理時實現,效果是可以使得在傳播過程中讓信息傳播更遠的距離。
另一種方式是添加一個「master」節點,讓它通過一種特殊類型的邊與所有節點連接。「master」節點充當全局暫存空間,每個節點在消息傳遞的每個步驟中都對其進行讀寫操作。另外「master」節點擁有單獨的節點維度 ,以及內部更新函數(實驗中是GRU)的單獨權重。這同樣可以使得在傳播過程中讓信息傳播更遠的距離。這樣可以允許模型有更大的容量,同時也不會過多的損失效率,其復雜度為 。
讀出函數採用set2set模型,這個模型使用 作為輸入,然後再經過 步計算後生成一個graph level的embedding ,其中過程與 內節點順序無關,最終將 輸入到一個神經網路中來獲得最終輸出。具體參考文獻: Sequence to sequence for sets。
由於消息傳遞階段的復雜度為 ,當 和 增大時,計算上就會是昂貴的。處理的方法是將 拆分成 個不同的 維的embedding ,並且在每個 上獨立運行傳播過程得到 ,然後進行混合:
代表神經網路, 代表拼接, 在所有節點上共享。這樣的混合過程保持了節點排列的不變性,同時允許圖的不同副本在傳播階段相互通信。這樣的設計提升了計算效率,比如在使用矩陣相乘的消息函數時一個副本的復雜度為 ,當有 個副本時一共為 。
一個分子有很多特徵,如下圖所示:
邊的特徵包括化學鍵與距離,因此有以下三種表示方式:
①化學圖(Chemical Graph):在不考慮距離的情況下,鄰接矩陣的值是離散的鍵類型:單鍵,雙鍵,三鍵或芳香鍵;
②距離分桶(Distance bins):GG-NN基於矩陣乘法的消息函數的前提假設是「邊信息是離散的」,因此作者將鍵的距離分為 10 個 bin,比如說 中均勻劃分 8 個 bin, 為 1 個 bin, 為 1 個 bin;
③原始距離特徵(Raw distance feature):也可以同時考慮距離和化學鍵的特徵,這時每條邊都有自己的特徵向量,此時鄰接矩陣的每個實例都是一個 5 維向量,第一維是距離,其餘4維是一個獨熱向量,代表4種不同的化學鍵。
實驗中對比了本文提出的方法與現有的方法:
以下為不考慮空間信息的結果:
以下為一些消融實驗:
具體實驗設置參照原文。
Ⅹ 如何理解人工智慧神經網路中的權值共享問題
權值(權重)共享這個詞是由LeNet5模型提出來的。以CNN為例,在對一張圖偏進行卷積的過程中,使用的是同一個卷積核的參數。比如一個3×3×1的卷積核,這個卷積核內9個的參數被整張圖共享,而不會因為圖像內位置的不同而改變卷積核內的權系數。說的再直白一些,就是用一個卷積核不改變其內權系數的情況下卷積處理整張圖片(當然CNN中每一層不會只有一個卷積核的,這樣說只是為了方便解釋而已)。