㈠ 卷積神經網路每層提取的特徵是什麼樣的
卷積神經網路是一個多層的神經網路,每層由多個二維平面組成,而每個平面由多個獨立神經元組成。
圖:卷積神經網路的概念示範:輸入圖像通過和三個可訓練的濾波器和可加偏置進行卷積,濾波過程如圖一,卷積後在C1層產生三個特徵映射圖,然後特徵映射圖中每組的四個像素再進行求和,加權值,加偏置,通過一個Sigmoid函數得到三個S2層的特徵映射圖。這些映射圖再進過濾波得到C3層。這個層級結構再和S2一樣產生S4。最終,這些像素值被光柵化,並連接成一個向量輸入到傳統的神經網路,得到輸出。
一般地,C層為特徵提取層,每個神經元的輸入與前一層的局部感受野相連,並提取該局部的特徵,一旦該局部特徵被提取後,它與其他特徵間的位置關系也隨之確定下來;S層是特徵映射層,網路的每個計算層由多個特徵映射組成,每個特徵映射為一個平面,平面上所有神經元的權值相等。特徵映射結構採用影響函數核小的sigmoid函數作為卷積網路的激活函數,使得特徵映射具有位移不變性。
此外,由於一個映射面上的神經元共享權值,因而減少了網路自由參數的個數,降低了網路參數選擇的復雜度。卷積神經網路中的每一個特徵提取層(C-層)都緊跟著一個用來求局部平均與二次提取的計算層(S-層),這種特有的兩次特徵提取結構使網路在識別時對輸入樣本有較高的畸變容忍能力。
㈡ 在caffe上怎麼做到各個卷積層權值參數共享
通過設置param {name : xxx}參數,如果名字相同就共享,不相同就不共享
㈢ 卷積神經網路(Convolutional Neural Networks, CNN)——更有效率地提取特徵
卷積神經網路(Convolutional Neural Networks, CNN)——更有效率地提取特徵
圖像識別問題本質上就是分類問題,比如我們要區分貓和狗,那麼我們就需要構建一個模型,將照片丟進去後,模型能輸出貓或者狗的概率有多大。在做圖像識別時首要的就是要提取圖片的特徵,那麼如何提取圖片的特徵呢?前面講到了前向全連接網路,我們可以嘗試用前向全連接網路提取。假設圖片的像素是100*100,如果如片是彩色的,每個像素都有RGB三種顏色的數值。因此,一張圖片是有一個三維向量構成的,一維是長100,一維是寬100,還有一維是R、G、B 3個通道(channels)。把這個三維向量拉直作為一個一維向量,長度就是100*100*3。
我們在區分一張圖片時,我們觀察的往往是圖片的局部的、最重要的特徵。 比如圖片上是一隻鳥,我們可能通過嘴巴、眼睛、爪子等就可以判斷出是一隻鳥了。因此,輸入層的每一個神經元沒有必要看圖片的全局,只需要看一個局部就行了。
在兩張不同的圖片上,同一個特徵區域可能處於不同位置。 比如鳥嘴的局部特徵區域在下面這兩張圖上就處在不同的位置上。那麼如何才能讓兩個不同的神經元在看到這兩個不同的感受野時,能產生一致的特徵值呢?
對上面的內容進行一個總結:
(1)我們設置一個局部感受野,假設感受野的大小為W*H*C,其中W表示感受野的寬度,H表示感受野的高度,C表示感受野的通道數。那麼對應的神經元的參數的個數就為:W*H*C個權值加1個偏置。在卷積神經網路中,我們稱這樣一個神經元為一個 濾波器(filter) 。
(3)我們通過滑動的方式讓感受野鋪滿整個圖片,假設圖片的尺寸是W1*H1*C,滑動步長為S,零填充的數量為P。假設感受野的個數是W2*H2,其中,
(4)我們讓所有感受野的觀測濾波器參數進行共享,即相當於一個濾波器通過滑動掃描的方式掃描了所有感受野。
(5)我們設置多個濾波器,假設濾波器的個數為K,這K個濾波器都通過滑動掃描的方式掃過整個圖片。此時參數的個數為:(W*H*C+1)*K。
(6)由於每個濾波器每經過一個感受野都會進行一次計算輸出一個值,所以輸出的維度為:W2*H2*K。我們將這個輸出稱為特徵圖,所以特徵圖寬度為W2,高度為H2,通道數C2=K。
舉個例子: 假設某個圖片的大小是100*100*3,設置濾波器的大小為3*3*3,濾波器的個數為64,設置步長S=1,設置零填充的數量為P=0。那麼卷積神經網路的參數為, 相比前向全連接 個參數,參數的個數縮小了幾個數量級。
輸出特徵圖的寬度和高度均為, 輸出特徵圖的通道數為, 所以輸出特徵圖的維度為98*98*64。
如果在上面輸出的基礎上再疊加一層卷積神經網路,濾波器的設置寬和高可以不變,但是通道數不再是3了,而是變成64了,因為輸入特徵圖的通道數已經變64了。假設濾波器的大小為3*3*64,濾波器的個數為32,設置步長S=1,設置零填充的數量為P=0。可以計算出來,新的輸出特徵圖的維度是96*96*32。
以上就是卷積神經網路(CNN)的解析。但是CNN一般不是單獨用的,因為一般提取圖片的特徵是為了分類,還需要進一步處理,常見的形式如下圖所示。
㈣ 如何理解卷積神經網路中的權值共享
所謂的權值共享就是說,給一張輸入圖片,用一個filter去掃這張圖,filter裡面的數就叫權重,這張圖每個位置是被同樣的filter掃的,所以權重是一樣的,也就是共享。 這么說可能還不太明白,如果你能理解什麼叫全連接神經網路的話,那麼從一個盡量減少參數個數的角度去理解就可以了。 對於一張輸入圖片,大小為W*H,如果使用全連接網路,生成一張X*Y的feature map,需要W*H*X*Y個參數,如果原圖長寬是10^2級別的,而且XY大小和WH差不多的話,那麼這樣一層網路需要的參數個數是10^8~10^12級別。 這么多參數肯定是不行的,那麼我們就想辦法減少參數的個數對於輸出層feature map上的每一個像素,他與原圖片的每一個像素都有連接,每一個鏈接都需要一個參數。但注意到圖像一般都是局部相關的,那麼如果輸出層的每一個像素只和輸入層圖片的一個局部相連,那麼需要參數的個數就會大大減少。假設輸出層每個像素只與輸入圖片上F*F的一個小方塊有連接,也就是說輸出層的這個像素值,只是通過原圖的這個F*F的小方形中的像素值計算而來,那麼對於輸出層的每個像素,需要的參數個數就從原來的W*H減小到了F*F。如果對於原圖片的每一個F*F的方框都需要計算這樣一個輸出值,那麼需要的參數只是W*H*F*F,如果原圖長寬是10^2級別,而F在10以內的話,那麼需要的參數的個數只有10^5~10^6級別,相比於原來的10^8~10^12小了很多很多。