導航:首頁 > 網路設置 > 神經網路輸入可以有多少通道

神經網路輸入可以有多少通道

發布時間：2022-10-29 22:14:49

1. rbf神經網路的輸入參數個數有上限么

沒有規定說只能有一個輸出，輸出向量維數也是根據你的輸出樣本確定的。在RBF網路之前訓練，需要給出輸入向量X和目標向量T，訓練的目的是要求得第一層和第二層之間的權值W1、閥值B1，和第二層與第三層之間的權值W2、閥值B2。整個網路的訓練分為兩步，第一部是無監督的學習，求W1、B1。第二步是有監督的學習求W2、B2。newrbe（）函數：和newrb（）功能差不多，用於創建一個精確地神經網路，能夠基於設計向量快速的無誤差的設計一個徑向基網路。該函數在創建RBF網路的時候，自動選擇隱含層數目，隱藏層的數目等於樣本輸入向量的數目，使得誤差為0。在樣本輸入向量非常多的情況下，用rbe就不大合適。

2. 卷積神經網路

1、二維互相關運算

二維互相關（cross-correlation）運算的輸入是一個二維輸入數組和一個二維核（kernel）數組，輸出也是一個二維數組，其中核數組通常稱為卷積核或過濾器（filter）。卷積核的尺寸通常小於輸入數組，卷積核在輸入數組上滑動，在每個位置上，卷積核與該位置處的輸入子數組按元素相乘並求和，得到輸出數組中相應位置的元素。圖1展示了一個互相關運算的例子，陰影部分分別是輸入的第一個計算區域、核數組以及對應的輸出。

2、二維卷積層

卷積層得名於卷積運算，但卷積層中用到的並非卷積運算而是互相關運算。我們將核數組上下翻轉、左右翻轉，再與輸入數組做互相關運算，這一過程就是卷積運算。由於卷積層的核數組是可學習的，所以使用互相關運算與使用卷積運算並無本質區別。

二維卷積層將輸入和卷積核做互相關運算，並加上一個標量偏置來得到輸出。卷積層的模型參數包括卷積核和標量偏置。

3、特徵圖與感受野

二維卷積層輸出的二維數組可以看作是輸入在空間維度（寬和高）上某一級的表徵，也叫特徵圖（feature map）。影響元素x的前向計算的所有可能輸入區域（可能大於輸入的實際尺寸）叫做x的感受野（receptive field）。

以圖1為例，輸入中陰影部分的四個元素是輸出中陰影部分元素的感受野。我們將圖中形狀為2×2的輸出記為Y，將Y與另一個形狀為2×2的核數組做互相關運算，輸出單個元素z。那麼，z在Y上的感受野包括Y的全部四個元素，在輸入上的感受野包括其中全部9個元素。可見，我們可以通過更深的卷積神經網路使特徵圖中單個元素的感受野變得更加廣闊，從而捕捉輸入上更大尺寸的特徵。

4、填充和步幅

我們介紹卷積層的兩個超參數，即填充和步幅，它們可以對給定形狀的輸入和卷積核改變輸出形狀。

4.1 填充（padding）

是指在輸入高和寬的兩側填充元素（通常是0元素），圖2里我們在原輸入高和寬的兩側分別添加了值為0的元素。

如果原輸入的高和寬是和，卷積核的高和寬是和，在高的兩側一共填充行，在寬的兩側一共填充列，則輸出形狀為：

   )

我們在卷積神經網路中使用奇數高寬的核，比如3×3，5×5的卷積核，對於高度（或寬度）為大小為2k+1的核，令步幅為1，在高（或寬）兩側選擇大小為k的填充，便可保持輸入與輸出尺寸相同。

4.2 步幅（stride）

在互相關運算中，卷積核在輸入數組上滑動，每次滑動的行數與列數即是步幅（stride）。此前我們使用的步幅都是1，圖3展示了在高上步幅為3、在寬上步幅為2的二維互相關運算。

一般來說，當高上步幅為，寬上步幅為時，輸出形狀為：

如果 ,那麼輸出形狀將簡化為：



更進一步，如果輸入的高和寬能分別被高和寬上的步幅整除，那麼輸出形狀將是:(nh/sh)×(nw/sw)



當時，我們稱填充為p；當時，我們稱步幅為s。

5、多輸入通道和多輸出通道

之前的輸入和輸出都是二維數組，但真實數據的維度經常更高。例如，彩色圖像在高和寬2個維度外還有RGB（紅、綠、藍）3個顏色通道。假設彩色圖像的高和寬分別是h和w（像素），那麼它可以表示為一個3×h×w的多維數組，我們將大小為3的這一維稱為通道（channel）維。

5.1 多輸入通道

卷積層的輸入可以包含多個通道，圖4展示了一個含2個輸入通道的二維互相關計算的例子。

5.2 多輸出通道

卷積層的輸出也可以包含多個通道，設卷積核輸入通道數和輸出通道數分別為ci和co，高和寬分別為kh和kw。如果希望得到含多個通道的輸出，我們可以為每個輸出通道分別創建形狀為ci×kh×kw的核數組，將它們在輸出通道維上連結，卷積核的形狀即co×ci×kh×kw。

對於輸出通道的卷積核，我們提供這樣一種理解，一個ci×kh×kw的核數組可以提取某種局部特徵，但是輸入可能具有相當豐富的特徵，我們需要有多個這樣的ci×kh×kw的核數組，不同的核數組提取的是不同的特徵。

5.3 1x1卷積層

最後討論形狀為1×1的卷積核，我們通常稱這樣的卷積運算為1×1卷積，稱包含這種卷積核的卷積層為1×1卷積層。圖5展示了使用輸入通道數為3、輸出通道數為2的1×1卷積核的互相關計算。

1×1卷積核可在不改變高寬的情況下，調整通道數。1×1卷積核不識別高和寬維度上相鄰元素構成的模式，其主要計算發生在通道維上。假設我們將通道維當作特徵維，將高和寬維度上的元素當成數據樣本，那麼1×1卷積層的作用與全連接層等價。

6、卷積層與全連接層的對比

二維卷積層經常用於處理圖像，與此前的全連接層相比，它主要有兩個優勢：

一是全連接層把圖像展平成一個向量，在輸入圖像上相鄰的元素可能因為展平操作不再相鄰，網路難以捕捉局部信息。而卷積層的設計，天然地具有提取局部信息的能力。

二是卷積層的參數量更少。不考慮偏置的情況下，一個形狀為(ci,co,h,w)的卷積核的參數量是ci×co×h×w，與輸入圖像的寬高無關。假如一個卷積層的輸入和輸出形狀分別是(c1,h1,w1)和(c2,h2,w2)，如果要用全連接層進行連接，參數數量就是c1×c2×h1×w1×h2×w2。使用卷積層可以以較少的參數數量來處理更大的圖像。

X=torch.rand(4,2,3,5)

print(X.shape)

conv2d=nn.Conv2d(in_channels=2,out_channels=3,kernel_size=(3,5),stride=1,padding=(1,2))

Y=conv2d(X)

print('Y.shape: ',Y.shape)

print('weight.shape: ',conv2d.weight.shape)

print('bias.shape: ',conv2d.bias.shape)

輸出：

torch.Size([4, 2, 3, 5])

Y.shape: torch.Size([4, 3, 3, 5])

weight.shape: torch.Size([3, 2, 3, 5])

bias.shape: torch.Size([3])

7、池化

7.1 二維池化層

池化層主要用於緩解卷積層對位置的過度敏感性。同卷積層一樣，池化層每次對輸入數據的一個固定形狀窗口（又稱池化窗口）中的元素計算輸出，池化層直接計算池化窗口內元素的最大值或者平均值，該運算也分別叫做最大池化或平均池化。圖6展示了池化窗口形狀為2×2的最大池化。

二維平均池化的工作原理與二維最大池化類似，但將最大運算符替換成平均運算符。池化窗口形狀為p×q的池化層稱為p×q池化層，其中的池化運算叫作p×q池化。

池化層也可以在輸入的高和寬兩側填充並調整窗口的移動步幅來改變輸出形狀。池化層填充和步幅與卷積層填充和步幅的工作機制一樣。

在處理多通道輸入數據時，池化層對每個輸入通道分別池化，但不會像卷積層那樣將各通道的結果按通道相加。這意味著池化層的輸出通道數與輸入通道數相等。

CNN網路中另外一個不可導的環節就是Pooling池化操作，因為Pooling操作使得feature map的尺寸變化，假如做2×2的池化，假設那麼第l+1層的feature map有16個梯度，那麼第l層就會有64個梯度，這使得梯度無法對位的進行傳播下去。其實解決這個問題的思想也很簡單，就是把1個像素的梯度傳遞給4個像素，但是需要保證傳遞的loss（或者梯度）總和不變。根據這條原則，mean pooling和max pooling的反向傳播也是不同的。

7.2 mean pooling

mean pooling的前向傳播就是把一個patch中的值求取平均來做pooling，那麼反向傳播的過程也就是把某個元素的梯度等分為n份分配給前一層，這樣就保證池化前後的梯度（殘差）之和保持不變，還是比較理解的，圖示如下：

mean pooling比較容易讓人理解錯的地方就是會簡單的認為直接把梯度復制N遍之後直接反向傳播回去，但是這樣會造成loss之和變為原來的N倍，網路是會產生梯度爆炸的。

7.3 max pooling

max pooling也要滿足梯度之和不變的原則，max pooling的前向傳播是把patch中最大的值傳遞給後一層，而其他像素的值直接被舍棄掉。那麼反向傳播也就是把梯度直接傳給前一層某一個像素，而其他像素不接受梯度，也就是為0。所以max pooling操作和mean pooling操作不同點在於需要記錄下池化操作時到底哪個像素的值是最大，也就是max id。

源碼中有一個max_idx_的變數，這個變數就是記錄最大值所在位置的，因為在反向傳播中要用到，那麼假設前向傳播和反向傳播的過程就如下圖所示。

7.4 Pytorch 實現池化層

我們使用Pytorch中的nn.MaxPool2d實現最大池化層，關注以下構造函數參數：

kernel_size – the size of the window to take a max over

stride – the stride of the window. Default value is kernel_size

padding – implicit zero padding to be added on both sides

forward函數的參數為一個四維張量，形狀為，返回值也是一個四維張量，形狀為，其中N是批量大小，C,H,W分別表示通道數、高度、寬度。

X=torch.arange(32,dtype=torch.float32).view(1,2,4,4)

pool2d=nn.MaxPool2d(kernel_size=3,padding=1,stride=(2,1))

Y=pool2d(X)

print(X)

print(Y)

練習

1、假如你用全連接層處理一張256 \times 256256×256的彩色（RGB）圖像，輸出包含1000個神經元，在使用偏置的情況下，參數數量是：

答：圖像展平後長度為3×256×256，權重參數和偏置參數的數量是3× 256× 256 × 1000 + 1000 =196609000。

2、假如你用全連接層處理一張256×256的彩色（RGB）圖像，卷積核的高寬是3×3，輸出包含10個通道，在使用偏置的情況下，這個卷積層共有多少個參數：

  答：輸入通道數是3，輸出通道數是10，所以參數數量是10×3×3×3+10=280。

3、conv2d = nn.Conv2d(in_channels=3, out_channels=4, kernel_size=3, padding=2)，輸入一張形狀為3×100×100的圖像，輸出的形狀為：

答：輸出通道數是4，上下兩側總共填充4行，卷積核高度是3，所以輸出的高度是104 - 3 + 1=102104−3+1=102，寬度同理可得。

4、關於卷積層，以下哪種說法是錯誤的：

A.1×1卷積可以看作是通道維上的全連接

B.某個二維卷積層用於處理形狀為3×100×100的輸入，則該卷積層無法處理形狀為3×256×256的輸入

C.卷積層通過填充、步幅、輸入通道數、輸出通道數等調節輸出的形狀

D .兩個連續的3×3卷積核的感受野與一個5×5卷積核的感受野相同

答：選B，對於高寬維度，只要輸入的高寬（填充後的）大於或等於卷積核的高寬即可進行計算。

the first layer is a 3 × 3 convolution, the second is a fully connected layer on top of the 3 × 3 output grid of the first layer (see Figure 1). Sliding this small network over the input activation grid boils down to replacing the 5 × 5 convolution with two layers of 3 × 3 convolution.

我們假設圖片是5*5的

我們使用5*5的卷積核對其卷積，步長為1，得到的結果是:(5-5)/1+1=1

然後我們使用2個卷積核為3*3的，這里的兩個是指2層：

第一層3*3：

得到的結果是(5-3)/1+1=3

第二層3*3：

得到的結果是(3-3)/1+1=1

所以我們的最終得到結果感受野大小和用5*5的卷積核得到的結果大小是一樣的！！！

5、關於池化層，以下哪種說法是錯誤的：

A.池化層不參與反向傳播

B.池化層沒有模型參數

C.池化層通常會減小特徵圖的高和寬

D.池化層的輸入和輸出具有相同的通道數

答：A

選項1：錯誤，池化層有參與模型的正向計算，同樣也會參與反向傳播

選項2：正確，池化層直接對窗口內的元素求最大值或平均值，並沒有模型參數參與計算

選項3：正確

選項4：正確

參考文獻：

https://www.boyuai.com/

https://blog.csdn.net/qq_21578849/article/details/94667699

https://www.hu.com/question/265791259/answer/298610437

https://blog.csdn.net/zouxiaolv/article/details/97366681

3. 神經網路淺談

人工智慧技術是當前炙手可熱的話題，而基於神經網路的深度學習技術更是熱點中的熱點。去年穀歌的Alpha Go 以4:1大比分的優勢戰勝韓國的李世石九段，展現了深度學習的強大威力，後續強化版的Alpha Master和無師自通的Alpha Zero更是在表現上完全碾壓前者。不論你怎麼看，以深度學習為代表的人工智慧技術正在塑造未來。

下圖為英偉達（NVIDIA）公司近年來的股價情況，該公司的主要產品是「圖形處理器」（GPU），而GPU被證明能大大加快神經網路的訓練速度，是深度學習必不可少的計算組件。英偉達公司近年來股價的飛漲足以證明當前深度學習的井噴之勢。

好，話不多說，下面簡要介紹神經網路的基本原理、發展脈絡和優勢。

神經網路是一種人類由於受到生物神經細胞結構啟發而研究出的一種演算法體系，是機器學習演算法大類中的一種。首先讓我們來看人腦神經元細胞：

一個神經元通常具有多個樹突，主要用來接受傳入信息，而軸突只有一條，軸突尾端有許多軸突末梢，可以給其他多個神經元傳遞信息。軸突末梢跟其他神經元的樹突產生連接，從而傳遞信號。

下圖是一個經典的神經網路（Artificial Neural Network,ANN）：

乍一看跟傳統互聯網的拓撲圖有點類似，這也是稱其為網路的原因，不同的是節點之間通過有向線段連接，並且節點被分成三層。我們稱圖中的圓圈為神經元，左邊三個神經元組成的一列為輸入層，中間神經元列為隱藏層,右邊神經元列為輸出層，神經元之間的箭頭為權重。

神經元是計算單元，相當於神經元細胞的細胞核，利用輸入的數據進行計算，然後輸出，一般由一個線性計算部分和一個非線性計算部分組成；輸入層和輸出層實現數據的輸入輸出，相當於細胞的樹突和軸突末梢；隱藏層指既不是輸入也不是輸出的神經元層，一個神經網路可以有很多個隱藏層。

神經網路的關鍵不是圓圈代表的神經元，而是每條連接線對應的權重。每條連接線對應一個權重，也就是一個參數。權重具體的值需要通過神經網路的訓練才能獲得。我們實際生活中的學習體現在大腦中就是一系列神經網路迴路的建立與強化，多次重復的學習能讓迴路變得更加粗壯，使得信號的傳遞速度加快，最後對外表現為「深刻」的記憶。人工神經網路的訓練也借鑒於此，如果某種映射關系出現很多次，那麼在訓練過程中就相應調高其權重。

1943年，心理學家McCulloch和數學家Pitts參考了生物神經元的結構，發表了抽象的神經元模型MP：

符號化後的模型如下：

Sum函數計算各權重與輸入乘積的線性組合，是神經元中的線性計算部分，而sgn是取符號函數，當輸入大於0時，輸出1，反之輸出0，是神經元中的非線性部分。向量化後的公式為z=sgn(w^T a)（w^T=(w_1,w_2,w_3)，a=〖(a_1,a_2,a_3)〗^T）。

但是，MP模型中，權重的值都是預先設置的，因此不能學習。該模型雖然簡單，並且作用有限，但已經建立了神經網路大廈的地基

1958年，計算科學家Rosenblatt提出了由兩層神經元組成(一個輸入層，一個輸出層)的神經網路。他給它起了一個名字–「感知器」（Perceptron）

感知器是當時首個可以學習的人工神經網路。Rosenblatt現場演示了其學習識別簡單圖像的過程，在當時引起了轟動，掀起了第一波神經網路的研究熱潮。

但感知器只能做簡單的線性分類任務。1969年，人工智慧領域的巨擘Minsky指出這點，並同時指出感知器對XOR（異或，即兩個輸入相同時輸出0，不同時輸出1）這樣的簡單邏輯都無法解決。所以，明斯基認為神經網路是沒有價值的。

隨後，神經網路的研究進入低谷，又稱 AI Winter 。

Minsky說過單層神經網路無法解決異或問題，但是當增加一個計算層以後，兩層神經網路不僅可以解決異或問題，而且具有非常好的非線性分類效果。

下圖為兩層神經網路（輸入層一般不算在內）：

上圖中，輸出層的輸入是上一層的輸出。

向量化後的公式為：

注意：

每個神經元節點默認都有偏置變數b，加上偏置變數後的計算公式為：

同時，兩層神經網路不再使用sgn函數作為激勵函數，而採用平滑的sigmoid函數：

σ(z)=1/(1+e^(-z) )

其圖像如下：

理論證明：兩層及以上的神經網路可以無限逼近真實的對應函數，從而模擬數據之間的真實關系，這是神經網路強大預測能力的根本。但兩層神經網路的計算量太大，當時的計算機的計算能力完全跟不上，直到1986年，Rumelhar和Hinton等人提出了反向傳播（Backpropagation，BP）演算法，解決了兩層神經網路所需要的復雜計算量問題，帶動了業界使用兩層神經網路研究的熱潮。

但好景不長，演算法的改進僅使得神經網路風光了幾年，然而計算能力不夠，局部最優解，調參等一系列問題一直困擾研究人員。90年代中期，由Vapnik等人發明的SVM（Support Vector Machines，支持向量機）演算法誕生，很快就在若干個方面體現出了對比神經網路的優勢：無需調參；高效；全局最優解。

由於以上原因，SVM迅速打敗了神經網路演算法成為主流。神經網路的研究再一次進入低谷， AI Winter again 。

多層神經網路一般指兩層或兩層以上的神經網路（不包括輸入層），更多情況下指兩層以上的神經網路。

2006年，Hinton提出使用預訓練」（pre-training）和「微調」(fine-tuning)技術能優化神經網路訓練，大幅度減少訓練多層神經網路的時間

並且，他給多層神經網路相關的學習方法賦予了一個新名詞–「深度學習」，以此為起點，「深度學習」紀元開始了：）

「深度學習」一方面指神經網路的比較「深」，也就是層數較多；另一方面也可以指神經網路能學到很多深層次的東西。研究發現，在權重參數不變的情況下，增加神經網路的層數，能增強神經網路的表達能力。

但深度學習究竟有多強大呢？沒人知道。2012年，Hinton與他的學生在ImageNet競賽中，用多層的卷積神經網路成功地對包含一千類別的一百萬張圖片進行了訓練，取得了分類錯誤率15%的好成績，這個成績比第二名高了近11個百分點，充分證明了多層神經網路識別效果的優越性。

同時，科研人員發現GPU的大規模並行矩陣運算模式完美地契合神經網路訓練的需要，在同等情況下，GPU的速度要比CPU快50-200倍，這使得神經網路的訓練時間大大減少，最終再一次掀起了神經網路研究的熱潮，並且一直持續到現在。

2016年基於深度學習的Alpha Go在圍棋比賽中以4:1的大比分優勢戰勝了李世石，深度學習的威力再一次震驚了世界。

神經網路的發展歷史曲折盪漾，既有被捧上神壇的高潮，也有無人問津的低谷，中間經歷了數次大起大落，我們姑且稱之為「三起三落」吧，其背後則是演算法的改進和計算能力的持續發展。

下圖展示了神經網路自發明以來的發展情況及一些重大時間節點。

當然，對於神經網路我們也要保持清醒的頭腦。由上圖，每次神經網路研究的興盛期持續10年左右，從最近2012年算起，或許10年後的2022年，神經網路的發展將再次遇到瓶頸。

神經網路作為機器學習的一種，其模型訓練的目的，就是使得參數盡可能的與真實的模型逼近。理論證明，兩層及以上的神經網路可以無限逼近真實的映射函數。因此，給定足夠的訓練數據和訓練時間，總能通過神經網路找到無限逼近真實關系的模型。

具體做法：首先給所有權重參數賦上隨機值，然後使用這些隨機生成的參數值，來預測訓練數據中的樣本。假設樣本的預測目標為yp ，真實目標為y，定義值loss，計算公式如下：

loss = (yp -y) ^2

這個值稱之為損失（loss），我們的目標就是使對所有訓練數據的損失和盡可能的小，這就轉化為求loss函數極值的問題。

一個常用方法是高等數學中的求導，但由於參數不止一個，求導後計算導數等於0的運算量很大，所以常用梯度下降演算法來解決這樣的優化問題。梯度是一個向量，由函數的各自變數的偏導數組成。

比如對二元函數 f =(x,y)，則梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函數值上升最快的方向。梯度下降演算法每次計算參數在當前的梯度，然後讓參數向著梯度的反方向前進一段距離，不斷重復，直到梯度接近零時截止。一般這個時候，所有的參數恰好達到使損失函數達到一個最低值的狀態。下圖為梯度下降的大致運行過程：

在神經網路模型中，由於結構復雜，每次計算梯度的代價很大。因此還需要使用反向傳播（Back Propagation）演算法。反向傳播演算法利用了神經網路的結構進行計算，不一次計算所有參數的梯度，而是從後往前。首先計算輸出層的梯度，然後是第二個參數矩陣的梯度，接著是中間層的梯度，再然後是第一個參數矩陣的梯度，最後是輸入層的梯度。計算結束以後，所要的兩個參數矩陣的梯度就都有了。當然，梯度下降只是其中一個優化演算法，其他的還有牛頓法、RMSprop等。

確定loss函數的最小值後，我們就確定了整個神經網路的權重，完成神經網路的訓練。

在神經網路中一樣的參數數量，可以用更深的層次去表達。

由上圖，不算上偏置參數的話，共有三層神經元，33個權重參數。

由下圖，保持權重參數不變，但增加了兩層神經元。

在多層神經網路中，每一層的輸入是前一層的輸出，相當於在前一層的基礎上學習，更深層次的神經網路意味著更深入的表示特徵，以及更強的函數模擬能力。更深入的表示特徵可以這樣理解，隨著網路的層數增加，每一層對於前一層次的抽象表示更深入。

如上圖，第一個隱藏層學習到「邊緣」的特徵，第二個隱藏層學習到「邊緣」組成的「形狀」的特徵，第三個隱藏層學習到由「形狀」組成的「圖案」的特徵，最後的隱藏層學習到由「圖案」組成的「目標」的特徵。通過抽取更抽象的特徵來對事物進行區分，從而獲得更好的區分與分類能力。

前面提到，明斯基認為Rosenblatt提出的感知器模型不能處理最簡單的「異或」（XOR）非線性問題，所以神經網路的研究沒有前途，但當增加一層神經元後，異或問題得到了很好地解決，原因何在？原來從輸入層到隱藏層，數據發生了空間變換，坐標系發生了改變，因為矩陣運算本質上就是一種空間變換。

如下圖，紅色和藍色的分界線是最終的分類結果，可以看到，該分界線是一條非常平滑的曲線。

但是，改變坐標系後，分界線卻表現為直線，如下圖：

同時，非線性激勵函數的引入使得神經網路對非線性問題的表達能力大大加強。

對於傳統的樸素貝葉斯、決策樹、支持向量機SVM等分類器，提取特徵是一個非常重要的前置工作。在正式訓練之前，需要花費大量的時間在數據的清洗上，這樣分類器才能清楚地知道數據的維度，要不然基於概率和空間距離的線性分類器是沒辦法進行工作的。然而在神經網路中，由於巨量的線性分類器的堆疊（並行和串列）以及卷積神經網路的使用，它對雜訊的忍耐能力、對多通道數據上投射出來的不同特徵偏向的敏感程度會自動重視或忽略，這樣我們在處理的時候，就不需要使用太多的技巧用於數據的清洗了。有趣的是，業內大佬常感嘆，「你可能知道SVM等機器學習的所有細節，但是效果並不好，而神經網路更像是一個黑盒，很難知道它究竟在做什麼，但工作效果卻很好」。

人類對機器學習的環節干預越少，就意味著距離人工智慧的方向越近。神經網路的這個特性非常有吸引力。

1) 谷歌的TensorFlow開發了一個非常有意思的神經網路入門教程，用戶可以非常方便地在網頁上更改神經網路的參數，並且能看到實時的學習效率和結果，非常適合初學者掌握神經網路的基本概念及神經網路的原理。網頁截圖如下：

2) 深度學習領域大佬吳恩達不久前發布的《神經網路和深度學習》MOOC，現在可以在網易雲課堂上免費觀看了，並且還有中文字幕。

3) 《神經網路於深度學習》（Michael Nielsen著）、《白話深度學習與TensorFlow》也是不錯的入門書籍。

4. 神經網路處理數據組有1000個維數需要多少輸入節點

這需要看你的實際需求了，一般使用二次型就行，這樣的話輸入節點1000！個，維度這么大我想應該有很大數據是冗餘的，可以先用PCA降低下維度1000維度（通道）有點誇張，還是說只是單維度下，有連續1000個輸入作為一組樣本

5. CNN網路簡介

卷積神經網路簡介（Convolutional Neural Networks，簡稱CNN）

卷積神經網路是近年發展起來，並引起廣泛重視的一種高效識別方法。20世紀60年代，Hubel和Wiesel在研究貓腦皮層中用於局部敏感和方向選擇的神經元時發現其獨特的網路結構可以有效地降低反饋神經網路的復雜性，繼而提出了卷積神經網路（Convolutional

Neural

Networks-簡稱CNN）。現在，CNN已經成為眾多科學領域的研究熱點之一，特別是在模式分類領域，由於該網路避免了對圖像的復雜前期預處理，可以直接輸入原始圖像，因而得到了更為廣泛的應用。

K.Fukushima在1980年提出的新識別機是卷積神經網路的第一個實現網路。隨後，更多的科研工作者對該網路進行了改進。其中，具有代表性的研究成果是Alexander和Taylor提出的「改進認知機」，該方法綜合了各種改進方法的優點並避免了耗時的誤差反向傳播。

一般地，CNN的基本結構包括兩層，其一為特徵提取層，每個神經元的輸入與前一層的局部接受域相連，並提取該局部的特徵。一旦該局部特徵被提取後，它與其它特徵間的位置關系也隨之確定下來；其二是特徵映射層，網路的每個計算層由多個特徵映射組成，每個特徵映射是一個平面，平面上所有神經元的權值相等。特徵映射結構採用影響函數核小的sigmoid函數作為卷積網路的激活函數，使得特徵映射具有位移不變性。此外，由於一個映射面上的神經元共享權值，因而減少了網路自由參數的個數。卷積神經網路中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層，這種特有的兩次特徵提取結構減小了特徵解析度。

CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由於CNN的特徵檢測層通過訓練數據進行學習，所以在使用CNN時，避免了顯示的特徵抽取，而隱式地從訓練數據中進行學習；再者由於同一特徵映射面上的神經元權值相同，所以網路可以並行學習，這也是卷積網路相對於神經元彼此相連網路的一大優勢。卷積神經網路以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優越性，其布局更接近於實際的生物神經網路，權值共享降低了網路的復雜性，特別是多維輸入向量的圖像可以直接輸入網路這一特點避免了特徵提取和分類過程中數據重建的復雜度。

1. 神經網路

首先介紹神經網路，這一步的詳細可以參考資源1。簡要介紹下。神經網路的每個單元如下：

其對應的公式如下：

其中，該單元也可以被稱作是Logistic回歸模型。當將多個單元組合起來並具有分層結構時，就形成了神經網路模型。下圖展示了一個具有一個隱含層的神經網路。

其對應的公式如下：

比較類似的，可以拓展到有2,3,4,5，…個隱含層。

神經網路的訓練方法也同Logistic類似，不過由於其多層性，還需要利用鏈式求導法則對隱含層的節點進行求導，即梯度下降+鏈式求導法則，專業名稱為反向傳播。關於訓練演算法，本文暫不涉及。

2 卷積神經網路

在圖像處理中，往往把圖像表示為像素的向量，比如一個1000×1000的圖像，可以表示為一個1000000的向量。在上一節中提到的神經網路中，如果隱含層數目與輸入層一樣，即也是1000000時，那麼輸入層到隱含層的參數數據為1000000×1000000=10^12，這樣就太多了，基本沒法訓練。所以圖像處理要想練成神經網路大法，必先減少參數加快速度。就跟辟邪劍譜似的，普通人練得很挫，一旦自宮後內力變強劍法變快，就變的很牛了。

2.1 局部感知

卷積神經網路有兩種神器可以降低參數數目，第一種神器叫做局部感知野。一般認為人對外界的認知是從局部到全局的，而圖像的空間聯系也是局部的像素聯系較為緊密，而距離較遠的像素相關性則較弱。因而，每個神經元其實沒有必要對全局圖像進行感知，只需要對局部進行感知，然後在更高層將局部的信息綜合起來就得到了全局的信息。網路部分連通的思想，也是受啟發於生物學裡面的視覺系統結構。視覺皮層的神經元就是局部接受信息的（即這些神經元只響應某些特定區域的刺激）。如下圖所示：左圖為全連接，右圖為局部連接。

在上右圖中，假如每個神經元只和10×10個像素值相連，那麼權值數據為1000000×100個參數，減少為原來的千分之一。而那10×10個像素值對應的10×10個參數，其實就相當於卷積操作。

2.2 參數共享

但其實這樣的話參數仍然過多，那麼就啟動第二級神器，即權值共享。在上面的局部連接中，每個神經元都對應100個參數，一共1000000個神經元，如果這1000000個神經元的100個參數都是相等的，那麼參數數目就變為100了。

怎麼理解權值共享呢？我們可以這100個參數（也就是卷積操作）看成是提取特徵的方式，該方式與位置無關。這其中隱含的原理則是：圖像的一部分的統計特性與其他部分是一樣的。這也意味著我們在這一部分學習的特徵也能用在另一部分上，所以對於這個圖像上的所有位置，我們都能使用同樣的學習特徵。

更直觀一些，當從一個大尺寸圖像中隨機選取一小塊，比如說 8×8 作為樣本，並且從這個小塊樣本中學習到了一些特徵，這時我們可以把從這個

8×8 樣本中學習到的特徵作為探測器，應用到這個圖像的任意地方中去。特別是，我們可以用從 8×8

樣本中所學習到的特徵跟原本的大尺寸圖像作卷積，從而對這個大尺寸圖像上的任一位置獲得一個不同特徵的激活值。

如下圖所示，展示了一個33的卷積核在55的圖像上做卷積的過程。每個卷積都是一種特徵提取方式，就像一個篩子，將圖像中符合條件（激活值越大越符合條件）的部分篩選出來。

2.3 多卷積核

上面所述只有100個參數時，表明只有1個100*100的卷積核，顯然，特徵提取是不充分的，我們可以添加多個卷積核，比如32個卷積核，可以學習32種特徵。在有多個卷積核時，如下圖所示：

上圖右，不同顏色表明不同的卷積核。每個卷積核都會將圖像生成為另一幅圖像。比如兩個卷積核就可以將生成兩幅圖像，這兩幅圖像可以看做是一張圖像的不同的通道。如下圖所示，下圖有個小錯誤，即將w1改為w0，w2改為w1即可。下文中仍以w1和w2稱呼它們。

下圖展示了在四個通道上的卷積操作，有兩個卷積核，生成兩個通道。其中需要注意的是，四個通道上每個通道對應一個卷積核，先將w2忽略，只看w1，那麼在w1的某位置（i,j）處的值，是由四個通道上（i,j）處的卷積結果相加然後再取激活函數值得到的。

所以，在上圖由4個通道卷積得到2個通道的過程中，參數的數目為4×2×2×2個，其中4表示4個通道，第一個2表示生成2個通道，最後的2×2表示卷積核大小。

2.4 Down-pooling

在通過卷積獲得了特徵 (features)

之後，下一步我們希望利用這些特徵去做分類。理論上講，人們可以用所有提取得到的特徵去訓練分類器，例如 softmax

分類器，但這樣做面臨計算量的挑戰。例如：對於一個 96X96

像素的圖像，假設我們已經學習得到了400個定義在8X8輸入上的特徵，每一個特徵和圖像卷積都會得到一個 (96 − 8 + 1) × (96 − 8+ 1) = 7921 維的卷積特徵，由於有 400 個特徵，所以每個樣例 (example) 都會得到一個 892 × 400 =3,168,400 維的卷積特徵向量。學習一個擁有超過 3 百萬特徵輸入的分類器十分不便，並且容易出現過擬合 (over-fitting)。

為了解決這個問題，首先回憶一下，我們之所以決定使用卷積後的特徵是因為圖像具有一種「靜態性」的屬性，這也就意味著在一個圖像區域有用的特徵極有可能在另一個區域同樣適用。因此，為了描述大的圖像，一個很自然的想法就是對不同位置的特徵進行聚合統計，例如，人們可以計算圖像一個區域上的某個特定特徵的平均值(或最大值)。這些概要統計特徵不僅具有低得多的維度 (相比使用所有提取得到的特徵)，同時還會改善結果(不容易過擬合)。這種聚合的操作就叫做池(pooling)，有時也稱為平均池化或者最大池化 (取決於計算池化的方法)。

至此，卷積神經網路的基本結構和原理已經闡述完畢。

2.5 多層卷積

在實際應用中，往往使用多層卷積，然後再使用全連接層進行訓練，多層卷積的目的是一層卷積學到的特徵往往是局部的，層數越高，學到的特徵就越全局化。

3 ImageNet-2010網路結構

ImageNetLSVRC是一個圖片分類的比賽，其訓練集包括127W+張圖片，驗證集有5W張圖片，測試集有15W張圖片。本文截取2010年AlexKrizhevsky的CNN結構進行說明，該結構在2010年取得冠軍，top-5錯誤率為15.3%。值得一提的是，在今年的ImageNetLSVRC比賽中，取得冠軍的GoogNet已經達到了top-5錯誤率6.67%。可見，深度學習的提升空間還很巨大。

下圖即為Alex的CNN結構圖。需要注意的是，該模型採用了2-GPU並行結構，即第1、2、4、5卷積層都是將模型參數分為2部分進行訓練的。在這里，更進一步，並行結構分為數據並行與模型並行。數據並行是指在不同的GPU上，模型結構相同，但將訓練數據進行切分，分別訓練得到不同的模型，然後再將模型進行融合。而模型並行則是，將若干層的模型參數進行切分，不同的GPU上使用相同的數據進行訓練，得到的結果直接連接作為下一層的輸入。

上圖模型的基本參數為：

輸入：224×224大小的圖片，3通道

第一層卷積：5×5大小的卷積核96個，每個GPU上48個。

第一層max-pooling：2×2的核。

第二層卷積：3×3卷積核256個，每個GPU上128個。

第二層max-pooling：2×2的核。

第三層卷積：與上一層是全連接，3*3的卷積核384個。分到兩個GPU上個192個。

第四層卷積：3×3的卷積核384個，兩個GPU各192個。該層與上一層連接沒有經過pooling層。

第五層卷積：3×3的卷積核256個，兩個GPU上個128個。

第五層max-pooling：2×2的核。

第一層全連接：4096維，將第五層max-pooling的輸出連接成為一個一維向量，作為該層的輸入。

第二層全連接：4096維

Softmax層：輸出為1000，輸出的每一維都是圖片屬於該類別的概率。

4 DeepID網路結構

DeepID網路結構是香港中文大學的Sun

Yi開發出來用來學習人臉特徵的卷積神經網路。每張輸入的人臉被表示為160維的向量，學習到的向量經過其他模型進行分類，在人臉驗證試驗上得到了97.45%的正確率，更進一步的，原作者改進了CNN，又得到了99.15%的正確率。

如下圖所示，該結構與ImageNet的具體參數類似，所以只解釋一下不同的部分吧。

上圖中的結構，在最後只有一層全連接層，然後就是softmax層了。論文中就是以該全連接層作為圖像的表示。在全連接層，以第四層卷積和第三層max-pooling的輸出作為全連接層的輸入，這樣可以學習到局部的和全局的特徵。

6. 卷積神經網路CNN(Convolutional Neural Network)

上圖計算過程為，首先我們可以將右邊進行卷積的可以稱為過濾器也可以叫做核，覆蓋到左邊第一個區域，然後分別按照對應位置相乘再相加，3*1+1*1+2*1+0*0+0*0+0*0+1*(-1)+8*(-1)+2*(-1)=-5;
按照上述的計算方法逐步按右移一個步長（步長可以設定為1,2，...等），然後按往下移，逐漸計算相應的值，得出最終的值。

如上圖顯示，對於第一個圖像矩陣對應的圖，一邊是白色，一邊是黑色，那麼中間就會存在一個垂直的邊緣，我們可以選擇一個垂直邊緣檢測過濾器，如乘法右邊的矩陣，那麼兩者做卷積後得出的圖會顯示如等號右邊的結果矩陣對應的灰度圖中間會有一個白色的中間帶，也就是檢測出來的邊緣，那為什麼感覺中間邊緣帶會比較寬呢？而不是很細的一個局域呢？原因是我們輸入的圖像只有6*6，過於小了，如果我們選擇輸出更大的尺寸的圖，那麼結果來說就是相對的一個細的邊緣檢測帶，也就將我們的垂直邊緣特徵提取出來了。
上述都是人工選擇過濾器的參數，隨著神經網路的發展我們可以利用反向傳播演算法來學習過濾器的參數

我們可以將卷積的顧慮器的數值變成一個參數，通過反向傳播演算法去學習，這樣學到的過濾器或者說卷積核就能夠識別到很多的特徵，而不是依靠手工選擇過濾器。

- padding 操作，卷積經常會出現兩個問題：
1.每經過一次卷積圖像都會縮小，如果卷積層很多的話，後面的圖像就縮的很小了；
2.邊緣像素利用次數只有一次，很明顯少於位於中間的像素，因此會損失邊緣圖像信息。
為了解決上述的問題，我們可以在圖像邊緣填充像素，也就是 padding 操作了。

如果我們設置在圖像邊緣填充的像素數為p，那麼經過卷積後的圖像是：(n+2p-f+1)x(n+2p-f+1).
如何去選擇p呢
通常有兩種選擇：
-Valid:也就是說不填充操作(no padding),因此如果我們有nxn的圖像，fxf的過濾器，那麼我們進行卷積nxn fxf=(n-f+1)x(n-f+1)的輸出圖像；
-Same:也就是填充後是輸出圖像的大小的與輸入相同，同樣就有(n+2p)x(n+2p) fxf=nxn,那麼可以算,n+2p-f+1=n,得到p=(f-1)/2。
通常對於過濾器的選擇有一個默認的准則就是選擇過濾器的尺寸是奇數的過濾器。
- 卷積步長設置(Strided COnvolution)
卷積步長也就是我們進行卷積操作時，過濾器每次移動的步長，上面我們介紹的卷積操作步長默認都是1，也就是說每次移動過濾器時我們是向右移動一格，或者向下移動一格。
但是我們可以對卷積進行步長的設置，也就是我們能夠對卷積移動的格數進行設置。同樣假如我們的圖像是nxn,過濾器是fxf，padding設置是p，步長strided設置為s,那麼我們進行卷積操作後輸出的圖像為((n+2p-f)/s+1)x((n+2p-f)/s+1),那麼這樣就會出現一個問題，如果計算結果不是整數怎麼辦？

一般是選擇向下取整，也就是說明，只有當我們的過濾器完全在圖像上能夠覆蓋時才對它進行計算，這是一個慣例。
實際上上述所述的操作在嚴格數學角度來說不是卷積的定義，卷積的定義上我們計算的時候在移動步長之前也就是對應元素相乘之前是需要對卷積核或者說我們的過濾器進行鏡像操作的，經過鏡像操作後再把對應元素進行相乘這才是嚴格意義上的卷積操作，在數學角度上來說這個操作不算嚴格的卷積操作應該是屬於互相關操作，但是在深度學習領域中，大家按照慣例都省略了反轉操作，也把這個操作叫做卷積操作

我們知道彩色圖像有RGB三個通道，因此對於輸入來說是一個三維的輸入，那麼對三維輸入的圖像如何進行卷積操作呢？

例子，如上圖我們輸入圖像假設為6×6×3，3代表有RGB三個通道channel,或者可以叫depth深度，過濾器的選擇為3×3×3，其中需要規定的是，顧慮器的channel必須與輸入圖像的channel相同，長寬沒有限制，那麼計算過程是，我們將過濾器的立體覆蓋在輸入，這樣對應的27個數對應相乘後相加得到一個數，對應到我們的輸出，因此這樣的方式進行卷積後我們得出的輸出層為4×4×1。如果我們有多個過濾器，比如我們分別用兩個過濾器一個提取垂直特徵，一個提取水平特徵，那麼輸出圖4×4×2 。也就是代表我們輸出的深度或者說通道與過濾器的個數是相等的。

第l層的卷積標記如下：

加入我們的過濾器是3×3×3規格的，如果我們設定10個過濾器，那麼需要學習的參數總數為每個過濾器為27個參數然後加上一個偏差bias那麼每個過濾器的參數為28個，所以十個過濾器的參數為280個。從這里也就可以看出，不管我們輸入的圖片大小是多大，我們都只需要計算這些參數，因此參數共享也就很容易理解了。

為了縮減模型的大小，提高計算速度，同時提高所提取特徵的魯棒性，我們經常會使用池化層。池化層的計算方式與卷積類似，只是我們需要對每一個通道都進行池化操作。
池化的方式一般有兩種：Max Pooling和Average Pooling。

上面為Max Pooling，那麼計算方法與卷積類似，首先設定超參數比如過濾器的大小與步長，然後覆蓋到對應格子上面，用最大值取代其值作為輸出的結果，例如上圖為過濾器選擇2×2，步長選擇為2，因此輸出就是2×2的維度，每個輸出格子都是過濾器對應維度上輸入的最大值。如果為平均池化，那麼就是選擇其間的平均值作為輸出的值。
因此從上面的過程我們看到，通過池化操作能夠縮小模型，同時能讓特徵值更加明顯，也就提高了提取特徵的魯棒性。

7. 一文看懂四種基本的神經網路架構

原文鏈接：
http://blackblog.tech/2018/02/23/Eight-Neural-Network/

更多干貨就在我的個人博客 http://blackblog.tech 歡迎關注

剛剛入門神經網路，往往會對眾多的神經網路架構感到困惑，神經網路看起來復雜多樣，但是這么多架構無非也就是三類，前饋神經網路，循環網路，對稱連接網路，本文將介紹四種常見的神經網路，分別是CNN，RNN，DBN，GAN。通過這四種基本的神經網路架構，我們來對神經網路進行一定的了解。

神經網路是機器學習中的一種模型，是一種模仿動物神經網路行為特徵，進行分布式並行信息處理的演算法數學模型。這種網路依靠系統的復雜程度，通過調整內部大量節點之間相互連接的關系，從而達到處理信息的目的。
一般來說，神經網路的架構可以分為三類：

前饋神經網路：
這是實際應用中最常見的神經網路類型。第一層是輸入，最後一層是輸出。如果有多個隱藏層，我們稱之為「深度」神經網路。他們計算出一系列改變樣本相似性的變換。各層神經元的活動是前一層活動的非線性函數。

循環網路：
循環網路在他們的連接圖中定向了循環，這意味著你可以按照箭頭回到你開始的地方。他們可以有復雜的動態，使其很難訓練。他們更具有生物真實性。
循環網路的目的使用來處理序列數據。在傳統的神經網路模型中，是從輸入層到隱含層再到輸出層，層與層之間是全連接的，每層之間的節點是無連接的。但是這種普通的神經網路對於很多問題卻無能無力。例如，你要預測句子的下一個單詞是什麼，一般需要用到前面的單詞，因為一個句子中前後單詞並不是獨立的。
循環神經網路，即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中，即隱藏層之間的節點不再無連接而是有連接的，並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。

對稱連接網路：
對稱連接網路有點像循環網路，但是單元之間的連接是對稱的（它們在兩個方向上權重相同）。比起循環網路，對稱連接網路更容易分析。這個網路中有更多的限制，因為它們遵守能量函數定律。沒有隱藏單元的對稱連接網路被稱為「Hopfield 網路」。有隱藏單元的對稱連接的網路被稱為玻爾茲曼機。

其實之前的帖子講過一些關於感知機的內容，這里再復述一下。
首先還是這張圖
這是一個M-P神經元

一個神經元有n個輸入，每一個輸入對應一個權值w，神經元內會對輸入與權重做乘法後求和，求和的結果與偏置做差，最終將結果放入激活函數中，由激活函數給出最後的輸出，輸出往往是二進制的，0 狀態代表抑制，1 狀態代表激活。

可以把感知機看作是 n 維實例空間中的超平面決策面，對於超平面一側的樣本，感知器輸出 1，對於另一側的實例輸出 0，這個決策超平面方程是 w⋅x=0。那些可以被某一個超平面分割的正反樣例集合稱為線性可分(linearly separable)樣例集合，它們就可以使用圖中的感知機表示。
與、或、非問題都是線性可分的問題，使用一個有兩輸入的感知機能容易地表示，而異或並不是一個線性可分的問題，所以使用單層感知機是不行的，這時候就要使用多層感知機來解決疑惑問題了。

如果我們要訓練一個感知機，應該怎麼辦呢？
我們會從隨機的權值開始，反復地應用這個感知機到每個訓練樣例，只要它誤分類樣例就修改感知機的權值。重復這個過程，直到感知機正確分類所有的樣例。每一步根據感知機訓練法則來修改權值，也就是修改與輸入 xi 對應的權 wi，法則如下：

這里 t 是當前訓練樣例的目標輸出，o 是感知機的輸出，η 是一個正的常數稱為學習速率。學習速率的作用是緩和每一步調整權的程度，它通常被設為一個小的數值（例如 0.1），而且有時會使其隨著權調整次數的增加而衰減。

多層感知機，或者說是多層神經網路無非就是在輸入層與輸出層之間加了多個隱藏層而已，後續的CNN，DBN等神經網路只不過是將重新設計了每一層的類型。感知機可以說是神經網路的基礎，後續更為復雜的神經網路都離不開最簡單的感知機的模型，

談到機器學習，我們往往還會跟上一個詞語，叫做模式識別，但是真實環境中的模式識別往往會出現各種問題。比如：
圖像分割：真實場景中總是摻雜著其它物體。很難判斷哪些部分屬於同一個對象。對象的某些部分可以隱藏在其他對象的後面。
物體光照：像素的強度被光照強烈影響。
圖像變形：物體可以以各種非仿射方式變形。例如，手寫也可以有一個大的圓圈或只是一個尖頭。
情景支持：物體所屬類別通常由它們的使用方式來定義。例如，椅子是為了讓人們坐在上面而設計的，因此它們具有各種各樣的物理形狀。
卷積神經網路與普通神經網路的區別在於，卷積神經網路包含了一個由卷積層和子采樣層構成的特徵抽取器。在卷積神經網路的卷積層中，一個神經元只與部分鄰層神經元連接。在CNN的一個卷積層中，通常包含若干個特徵平面(featureMap)，每個特徵平面由一些矩形排列的的神經元組成，同一特徵平面的神經元共享權值，這里共享的權值就是卷積核。卷積核一般以隨機小數矩陣的形式初始化，在網路的訓練過程中卷積核將學習得到合理的權值。共享權值（卷積核）帶來的直接好處是減少網路各層之間的連接，同時又降低了過擬合的風險。子采樣也叫做池化（pooling），通常有均值子采樣（mean pooling）和最大值子采樣（max pooling）兩種形式。子采樣可以看作一種特殊的卷積過程。卷積和子采樣大大簡化了模型復雜度，減少了模型的參數。
卷積神經網路由三部分構成。第一部分是輸入層。第二部分由n個卷積層和池化層的組合組成。第三部分由一個全連結的多層感知機分類器構成。
這里舉AlexNet為例：

·輸入：224×224大小的圖片，3通道
·第一層卷積：11×11大小的卷積核96個，每個GPU上48個。
·第一層max-pooling：2×2的核。
·第二層卷積：5×5卷積核256個，每個GPU上128個。
·第二層max-pooling：2×2的核。
·第三層卷積：與上一層是全連接，3*3的卷積核384個。分到兩個GPU上個192個。
·第四層卷積：3×3的卷積核384個，兩個GPU各192個。該層與上一層連接沒有經過pooling層。
·第五層卷積：3×3的卷積核256個，兩個GPU上個128個。
·第五層max-pooling：2×2的核。
·第一層全連接：4096維，將第五層max-pooling的輸出連接成為一個一維向量，作為該層的輸入。
·第二層全連接：4096維
·Softmax層：輸出為1000，輸出的每一維都是圖片屬於該類別的概率。

卷積神經網路在模式識別領域有著重要應用，當然這里只是對卷積神經網路做了最簡單的講解，卷積神經網路中仍然有很多知識，比如局部感受野，權值共享，多卷積核等內容，後續有機會再進行講解。

傳統的神經網路對於很多問題難以處理，比如你要預測句子的下一個單詞是什麼，一般需要用到前面的單詞，因為一個句子中前後單詞並不是獨立的。RNN之所以稱為循環神經網路，即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中，即隱藏層之間的節點不再無連接而是有連接的，並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上，RNN能夠對任何長度的序列數據進行處理。
這是一個簡單的RNN的結構，可以看到隱藏層自己是可以跟自己進行連接的。

那麼RNN為什麼隱藏層能夠看到上一刻的隱藏層的輸出呢，其實我們把這個網路展開來開就很清晰了。

從上面的公式我們可以看出，循環層和全連接層的區別就是循環層多了一個權重矩陣 W。
如果反復把式2帶入到式1，我們將得到：

在講DBN之前，我們需要對DBN的基本組成單位有一定的了解，那就是RBM，受限玻爾茲曼機。
首先什麼是玻爾茲曼機？
[圖片上傳失敗...(image-d36b31-1519636788074)]
如圖所示為一個玻爾茲曼機，其藍色節點為隱層，白色節點為輸入層。
玻爾茲曼機和遞歸神經網路相比，區別體現在以下幾點：
1、遞歸神經網路本質是學習一個函數，因此有輸入和輸出層的概念，而玻爾茲曼機的用處在於學習一組數據的「內在表示」，因此其沒有輸出層的概念。
2、遞歸神經網路各節點鏈接為有向環，而玻爾茲曼機各節點連接成無向完全圖。

而受限玻爾茲曼機是什麼呢？
最簡單的來說就是加入了限制，這個限制就是將完全圖變成了二分圖。即由一個顯層和一個隱層構成，顯層與隱層的神經元之間為雙向全連接。

h表示隱藏層，v表示顯層
在RBM中，任意兩個相連的神經元之間有一個權值w表示其連接強度，每個神經元自身有一個偏置系數b（對顯層神經元）和c（對隱層神經元）來表示其自身權重。
具體的公式推導在這里就不展示了

DBN是一個概率生成模型，與傳統的判別模型的神經網路相對，生成模型是建立一個觀察數據和標簽之間的聯合分布，對P(Observation|Label)和 P(Label|Observation)都做了評估，而判別模型僅僅而已評估了後者，也就是P(Label|Observation)。
DBN由多個限制玻爾茲曼機（Restricted Boltzmann Machines）層組成，一個典型的神經網路類型如圖所示。這些網路被「限制」為一個可視層和一個隱層，層間存在連接，但層內的單元間不存在連接。隱層單元被訓練去捕捉在可視層表現出來的高階數據的相關性。

生成對抗網路其實在之前的帖子中做過講解，這里在說明一下。
生成對抗網路的目標在於生成，我們傳統的網路結構往往都是判別模型，即判斷一個樣本的真實性。而生成模型能夠根據所提供的樣本生成類似的新樣本，注意這些樣本是由計算機學習而來的。
GAN一般由兩個網路組成，生成模型網路，判別模型網路。
生成模型 G 捕捉樣本數據的分布，用服從某一分布（均勻分布，高斯分布等）的雜訊 z 生成一個類似真實訓練數據的樣本，追求效果是越像真實樣本越好；判別模型 D 是一個二分類器，估計一個樣本來自於訓練數據（而非生成數據）的概率，如果樣本來自於真實的訓練數據，D 輸出大概率，否則，D 輸出小概率。
舉個例子：生成網路 G 好比假幣製造團伙，專門製造假幣，判別網路 D 好比警察，專門檢測使用的貨幣是真幣還是假幣，G 的目標是想方設法生成和真幣一樣的貨幣，使得 D 判別不出來，D 的目標是想方設法檢測出來 G 生成的假幣。
傳統的判別網路：

生成對抗網路：

下面展示一個cDCGAN的例子（前面帖子中寫過的）
生成網路

判別網路

最終結果，使用MNIST作為初始樣本，通過學習後生成的數字，可以看到學習的效果還是不錯的。

本文非常簡單的介紹了四種神經網路的架構，CNN，RNN，DBN，GAN。當然也僅僅是簡單的介紹，並沒有深層次講解其內涵。這四種神經網路的架構十分常見，應用也十分廣泛。當然關於神經網路的知識，不可能幾篇帖子就講解完，這里知識講解一些基礎知識，幫助大家快速入（zhuang）門（bi）。後面的帖子將對深度自動編碼器，Hopfield 網路長短期記憶網路（LSTM）進行講解。

8. （7）卷積神經網路的基本結構

    卷積神經網路主要結構有：卷積層、池化層、和全連接層。通過堆疊這些層結構形成一個卷積神經網路。將原始圖像轉化為類別得分，其中卷積層和全連接層擁有參數，激活層和池化層沒有參數。參數更新通過反向傳播實現。

（1）卷積層

卷積核是一系列的濾波器，用來提取某一種特徵

    我們用它來處理一個圖片，當圖像特徵與過濾器表示的特徵相似時，卷積操作可以得到一個比較大的值。

    當圖像特徵與過濾器不相似時，卷積操作可以得到一個比較小的值，實際上，卷積的結果特徵映射圖顯示的是對應卷積核所代表的特徵在原始特徵圖上的分布情況。

每個濾波器在空間上（寬度和高度）都比較小，但是深度和輸入數據保持一致（特徵圖的通道數），當卷積核在原圖像滑動時，會生成一個二維激活圖，激活圖上每個空間位置代表原圖像對該卷積核的反應。每個卷積層，會有一整個集合的卷積核，有多少個卷積核，輸出就有多少個通道。每個卷積核生成一個特徵圖，這些特徵圖堆疊起來組成整個輸出結果。

卷積核體現了參數共享和局部連接的模式。每個卷積核的大小代表了一個感受野的大小。

    卷積後的特徵圖大小為(W-F+2*P)/s+1 ；P 為填充 s 為步長

（2）池化層

池化層本質上是下采樣，利用圖像局部相關性的原理（認為最大值或者均值代表了這個局部的特徵），對圖像進行子抽樣，可以減少數據處理量同時保留有用信息。這里池化有平均池化，L2範式池化，最大池化，經過實踐，最大池化的效果要好於平均池化（平均池化一般放在卷積神經網路的最後一層），最大池化有利於保存紋理信息，平均池化有利於保存背景信息。實際上（因為信息損失的原因）我們可以看到，通過在卷積時使用更大的步長也可以縮小特徵映射的尺寸，並不一定要用池化，有很多人不建議使用池化層。32*32在5*5卷積核步長為1下可得到28*28。

池化操作可以逐漸降低數據體的空間尺寸，這樣的話就能減少網路中參數的數量，使得計算資源耗費變少，也能有效控制過擬合。

（3）全連接層

通過全連接層將特徵圖轉化為類別輸出。全連接層不止一層，在這個過程中為了防止過擬合會引入DropOut。最新研究表明，在進入全連接層之前，使用全局平均池化可以有效降低過擬合。

（4）批歸一化BN——Batch Normal

    隨著神經網路訓練的進行，每個隱層的參數變化使得後一層的輸入發生變化，從而每一批的訓練數據的分布也隨之改變，致使網路在每次迭代中都需要擬合不同的數據分布，增大訓練復雜度和過擬合的風險，只能採用較小的學習率去解決。

    通常卷積層後就是BN層加Relu。BN已經是卷積神經網路中的一個標准技術。標准化的過程是可微的，因此可以將BN應用到每一層中做前向和反向傳播，同在接在卷積或者全連接層後，非線性層前。它對於不好的初始化有很強的魯棒性，同時可以加快網路收斂速度。

（5）DropOut

  Dropout對於某一層神經元，通過定義的概率來隨機刪除一些神經元，同時保持輸入層與輸出層神經元的個數不變，然後按照神經網路的學習方法進行參數更新，下一次迭代中，重新隨機刪除一些神經元，直至訓練結束。

（6）softmax層

  Softmax層也不屬於CNN中單獨的層，一般要用CNN做分類的話，我們習慣的方式是將神經元的輸出變成概率的形式，Softmax就是做這個的：。顯然Softmax層所有的輸出相加為1，按照這個概率的大小確定到底屬於哪一類。

9. 卷積神經網路用全連接層的參數是怎麼確定的

卷積神經網路用全連接層的參數確定：卷積神經網路與傳統的人臉檢測方法不同，它是通過直接作用於輸入樣本，用樣本來訓練網路並最終實現檢測任務的。

它是非參數型的人臉檢測方法，可以省去傳統方法中建模、參數估計以及參數檢驗、重建模型等的一系列復雜過程。本文針對圖像中任意大小、位置、姿勢、方向、膚色、面部表情和光照條件的人臉。

輸入層

卷積神經網路的輸入層可以處理多維數據，常見地，一維卷積神經網路的輸入層接收一維或二維數組，其中一維數組通常為時間或頻譜采樣；二維數組可能包含多個通道；二維卷積神經網路的輸入層接收二維或三維數組；三維卷積神經網路的輸入層接收四維數組。

由於卷積神經網路在計算機視覺領域應用較廣，因此許多研究在介紹其結構時預先假設了三維輸入數據，即平面上的二維像素點和RGB通道。

10. 怎樣判斷神經網路有幾個輸入、幾個隱層和幾個輸出啊！

那我就用最簡單的語言告訴你：
你數數輸入端有幾個圓圈就有幾個輸入量，輸出端一樣的。
輸入端和輸出端只有一層。單層網路沒有隱含層，多層則有一層或是多層隱含層。至於每層隱含層的數量，你數數個數就出來了。
其實我感覺，設置一個三層的神經網路就可以了。隱含層的神經元只需要幾個就能解決問題了。沒有必要太多。

閱讀全文

與神經網路輸入可以有多少通道相關的資料

熱點內容

wifi3g網路發布：2025-03-15 15:40:16 瀏覽：963

杭州移動網路為什麼好慢發布：2025-03-15 15:39:40 瀏覽：296

網路超時有什麼說法發布：2025-03-15 15:25:57 瀏覽：739

網路用語舔狗有哪些發布：2025-03-15 15:22:30 瀏覽：877

計算機網路求最大傳輸速率發布：2025-03-15 15:18:12 瀏覽：432

為什麼網路需登錄或認證發布：2025-03-15 15:17:17 瀏覽：773

網路游戲人數在哪裡看發布：2025-03-15 15:15:49 瀏覽：144

數字媒體和網路技術哪個專業好發布：2025-03-15 15:15:35 瀏覽：135

哪個國家的網路安全法嚴發布：2025-03-15 15:13:29 瀏覽：713

路由器沒網路密碼怎麼設置發布：2025-03-15 15:11:07 瀏覽：788

為什麼黑屏後無網路發布：2025-03-15 15:11:00 瀏覽：418

大神娛樂無法連接網路發布：2025-03-15 15:06:44 瀏覽：444

校園網路安全案例真實故事發布：2025-03-15 15:05:28 瀏覽：114

黃驊網路營銷方案發布：2025-03-15 15:00:10 瀏覽：361

清退網路平台有哪些發布：2025-03-15 14:52:15 瀏覽：64

魔百盒網路機頂盒用哪個信號源發布：2025-03-15 14:51:21 瀏覽：638

電腦寬頻有網路但是沒法上網發布：2025-03-15 14:03:32 瀏覽：402

蘋果蜂窩網路賬單怎麼刪除發布：2025-03-15 14:03:28 瀏覽：86

路由器連接了wifi沒有網路發布：2025-03-15 13:51:39 瀏覽：70

cad網路列印機設置發布：2025-03-15 13:44:17 瀏覽：125

導航:首頁 > 網路設置 > 神經網路輸入可以有多少通道

神經網路輸入可以有多少通道

與神經網路輸入可以有多少通道相關的資料

友情鏈接