A. 神經網路Kohonen模型
一、Kohonen模型概述
1981年芬蘭赫爾辛基大學Kohonen教授提出了一個比較完整的,分類性能較好的自組織特徵影射(Self-Organizing Feature Map)人工神經網路(簡稱SOM網路)方案。這種網路也稱為Kohonen特徵影射網路。
這種網路模擬大腦神經系統自組織特徵影射功能,它是一種競爭式學習網路,在學習中能無監督地進行自組織學習。
二、Hohonen模型原理
1.概述
SOM網路由輸入層和競爭層組成。輸入層神經元數為N,競爭層由M=R×C神經元組成,構成一個二維平面陣列或一個一維陣列(R=1)。輸入層和競爭層之間實現全互連接。
SOM網路的基本思想是網路競爭層各神經元競爭對輸入模式的響應機會,最後僅有一個神經元成為競爭的勝者,並對那些與獲勝神經元有關的各連接權朝著更有利於它競爭的方向調整,這一獲勝神經元就表示對輸入模式的分類。
SOM演算法是一種無教師示教的聚類方法,它能將任意輸入模式在輸出層映射成一維或二維離散圖形,並保持其拓撲結構不變。即在無教師的情況下,通過對輸入模式的自組織學習,在競爭層將分類結果表示出來。此外,網路通過對輸入模式的反復學習,可以使連接權矢量空間分布密度與輸入模式的概率分布趨於一致,即連接權矢量空間分布能反映輸入模式的統計特徵。
2.網路權值初始化
因為網路輸入很可能出現在中間區,因此,如果競爭層的初始權值選擇在輸入空間的中間區,則其學習效果會更加有效。
3.鄰域距離矩陣
SOM網路中的神經元可以按任何方式排列,這種排列可以用表示同一層神經元間的Manhattan距離的鄰域距離矩陣D來描述,而兩神經元的Manhattan距離是指神經元坐標相減後的矢量中,其元素絕對值之和。
4.Kohonen競爭學習規則
設SOM網路的輸入模式為Xp=(
Wj=(wj1,wj2,…,wjN),j=1,2,…,M。
Kohonen網路自組織學習過程包括兩個部分:一是選擇最佳匹配神經元,二是權矢量自適應變化的更新過程。
確定輸入模式Xp與連接權矢量Wj的最佳匹配的評價函數是兩個矢量的歐氏距離最小,即
g,確定獲勝神經元g。
dg=mjin(dj),j=1,2,…,M。
求輸入模式Xp在競爭層的獲勝神經元g及其在鄰域距離nd內的神經元的輸出。
中國礦產資源評價新技術與評價新模型
dgm為鄰域距離矩陣D的元素,為競爭層中獲勝神經元g與競爭層中其它神經元的距離。
求輸入模式Xp在競爭層的獲勝神經元g及其在鄰域距離nd內的神經元的權值修正值。
中國礦產資源評價新技術與評價新模型
式中:i=1,2,…,N;
lr為學習速率;
t為學習循環次數。
Δwjt(t+1)的其餘元素賦值為0。
進行連接權的調整
wji(t+1)=wji(t)+Δwji(t+1)。
5.權值學習中學習速率及鄰域距離的更新
(1)SOM網路的學習過程分為兩個階段
第一階段為粗學習與粗調整階段。在這一階段內,連接權矢量朝著輸入模式的方向進行調整,神經元的權值按照期望的方向在適應神經元位置的輸入空間建立次序,大致確定輸入模式在競爭層中所對應的影射位置。一旦各輸入模式在競爭層有了相對的影射位置後,則轉入精學習與細調整階段,即第二階段。在這一階段內,網路學習集中在對較小的范圍內的連接權進行調整,神經元的權值按照期望的方向在輸入空間伸展,直到保留到他們在粗調整階段所建立的拓撲次序。
學習速率應隨著學習的進行不斷減小。
(2)鄰域的作用與更新
在SOM網路中,腦神經細胞接受外界信息的刺激產生興奮與抑制的變化規律是通過鄰域的作用來體現的鄰域規定了與獲勝神經元g連接的權向量Wg進行同樣調整的其他神經元的范圍。在學習的最初階段,鄰域的范圍較大,隨著學習的深入進行,鄰域的范圍逐漸縮小。
(3)學習速率及鄰域距離的更新
在粗調整階段,
學習參數初始化
最大學習循環次數 MAX_STEP1=1000,
粗調整階段學習速率初值 LR1=1.4,
細調整階段學習速率初值 LR2=0.02,
最大鄰域距離 MAX_ND1=Dmax,
Dmax為鄰域距離矩陣D的最大元素值。
粗調階段
學習循環次數step≤MAX_STEP1,
學習速率lr從LR1調整到LR2,
鄰域距離nd 從MAX_ND1調整到1,
求更新系數r,
r=1-step/MAX_STEP1,
鄰域距離nd更新,
nd=1.00001+(MAX_ND1-1)×r。
學習速率lr更新,
lr=LR2+(LR1-LR2)×r。
在細調整階段,
學習參數初始化,
最大學習循環次數 MAX_STEP2=2000,
學習速率初值 LR2=0.02,
最大鄰域距離 MAX_ND2=1。
細調階段
MAX_STEP1<step≤MAX_STEP1+MAX_STEP2,
學習速率lr慢慢從LR2減少,
鄰域距離nd設為1,
鄰域距離nd更新,
nd=MAX_ND2+0.00001。
學習速率lr更新,
lr=LR2×(MAX_STEP1/step)。
6.網路的回想——預測
SOM網路經學習後按照下式進行回想:
中國礦產資源評價新技術與評價新模型
Yj=0,j=1,2,…,M,(j≠g)。
將需要分類的輸入模式提供給網路的輸入層,按照上述方法尋找出競爭層中連接權矢量與輸入模式最接近的神經元,此時神經元有最大的激活值1,而其它神經元被抑制而取0值。這時神經元的狀態即表示對輸入模式的分類。
三、總體演算法
1.SOM權值學習總體演算法
(1)輸入參數X[N][P]。
(2)構造權值矩陣W[M][N]。
1)由X[N][P]求Xmid[N],
2)由Xmid[N]構造權值W[M][N]。
(3)構造競爭層。
1)求競爭層神經元數M,
2)求鄰域距離矩陣D[M][M],
3)求矩陣D[M][M]元素的最大值Dmax。
(4)學習參數初始化。
(5)學習權值W[M][N]。
1)學習參數學習速率lr,鄰域距離nd更新,分兩階段:
(i)粗調階段更新;
(ii)細調階段更新。
2)求輸入模式X[N][p]在競爭層的獲勝神經元win[p]。
(i)求X[N][p]與W[m][N]的歐氏距離dm;
(ii)按距離dm最短,求輸入模式X[N][p]在競爭層的獲勝神經元win[p]。
3)求輸入模式X[N][p]在競爭層的獲勝神經元win[p]及其在鄰域距離nd內的神經元的輸出Y[m][p]。
4)求輸入模式X[N][p]在競爭層的獲勝神經元win[p]及其
在鄰域距離nd內的神經元的權值修正值ΔW[m][N],
從而得到輸入模式X[N][p]產生的權值修正值ΔW[M][N]。
5)權值修正W[M][N]=W[M][N]+ΔW[M][N]。
6)學習結束條件:
(i)學習循環到MAX_STEP次;
(ii)學習速率lr達到用戶指定的LR_MIN;
(iii)學習時間time達到用戶指定的TIME_LIM。
(6)輸出。
1)學習得到的權值矩陣W[M][N];
2)鄰域距離矩陣D[M][M]。
(7)結束。
2.SOM預測總體演算法
(1)輸入需分類數據X[N][P],鄰域距離矩陣D[M][M]。
(2)求輸入模式X[N][p]在競爭層的獲勝神經元win[p]。
1)求X[N][p]與W[m][N]的歐氏距離dm;
2)按距離dm最短,求輸入模式X[N][p]在競爭層的獲勝神經元win[p]。
(3)求獲勝神經元win[p]在競爭層排列的行列位置。
(4)輸出與輸入數據適應的獲勝神經元win[p]在競爭層排列的行列位置,作為分類結果。
(5)結束。
四、總體演算法流程圖
Kohonen總體演算法流程圖見附圖4。
五、數據流圖
Kohonen數據流圖見附圖4。
六、無模式識別總體演算法
假定有N個樣品,每個樣品測量M個變數,則有原始數據矩陣:
X=(xij)N×M,i=1,2,…,N,j=1,2,…,M。
(1)原始數據預處理
X=(xij)N×M處理為Z=(zij)N×M,
分3種處理方法:
1)襯度;
2)標准化;
3)歸一化。
程序默認用歸一化處理。
(2)構造Kohonen網
競爭層與輸入層之間的神經元的連接權值構成矩陣WQ×M。
WQ×M初始化。
(3)進入Kohonen網學習分類循環,用epoch記錄循環次數,epoch=1。
(4)在每個epoch循環中,對每個樣品n(n=1,2,…,N)進行分類。從1個樣品n=1開始。
(5)首先計算輸入層的樣品n的輸入數據znm(m=1,2,…,M)與競爭層Q個神經元對應權值wqm的距離。
(6)尋找輸入層的樣品n與競爭層Q個神經元的最小距離,距離最小的神經元Win[n]為獲勝神經元,將樣品n歸入獲勝神經元Win[n]所代表的類型中,從而實現對樣品n的分類。
(7)對樣品集中的每一個樣品進行分類:
n=n+1。
(如果n≤N,轉到5。否則,轉到8。)
(8)求分類後各神經元所對應的樣品的變數的重心,用對應的樣品的變數的中位數作為重心,用對應的樣品的變數的重心來更新各神經元的連接權值。
(9)epoch=epoch+1;
一次學習分類循環結束。
(10)如果滿足下列兩個條件之一,分類循環結束,轉到11;
否則,分類循環繼續進行,轉到4。
1)全部樣品都固定在某個神經元上,不再改變了;
2)學習分類循環達到最大迭代次數。
(11)輸出:
1)N個樣品共分成多少類,每類多少樣品,記錄每類的樣品編號;
2)如果某類中樣品個數超過1個,則輸出某類的樣品原始數據的每個變數的均值、最小值、最大值和均方差;
3)如果某類中樣品個數為1個,則輸出某類的樣品原始數據的各變數值;
4)輸出原始數據每個變數(j=1,2,…,M)的均值,最小值,最大值和均方差。
(12)結束。
七、無模式識別總體演算法流程圖
Kohonen無模式總體演算法流程圖見附圖5。
B. bp神經網路和som神經網路的區別
結構層不一樣。
1、SOM是一種比較簡單的神經網路,只有一層神經網路。
2、BP網路具有三層結構。
C. som神經網路中競爭層神經元數目怎麼確定
輸出層神經元數量設定和訓練集樣本的類別數相關,但是實際中我們往往不能清除地知道有多少類。如果神經元節點數少於類別數,則不足以區分全部模式,訓練的結果勢必將相近的模式類合並為一類;相反,如果神經元節點數多於類別數,則有可能分的過細,或者是出現「死節點」,即在訓練過程中,某個節點從未獲勝過且遠離其他獲勝節點,因此它們的權值從未得到過更新。
不過一般來說,如果對類別數沒有確定知識,寧可先設定較多的節點數,以便較好的映射樣本的拓撲結構,如果分類過細再酌情減少輸出節點。「死節點」問題一般可通過重新初始化權值得到解決。
D. 神經網路中Belief Net和標準的神經網路有什麼區別
這兩個概念實際上是互相交叉的,例如,卷積神經網路(Convolutional neural networks,簡稱CNNs)就是一種深度的監督學習下的機器學習模型,而深度置信網(Deep Belief Nets,簡稱DBNs)就是一種無監督學習下的機器學習模型。深度學習的概念源於人工神經網路的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現數據的分布式特徵表示。深度學習的概念由Hinton等人於2006年提出。基於深信度網(DBN)提出非監督貪心逐層訓練演算法,為解決深層結構相關的優化難題帶來希望,隨後提出多層自動編碼器深層結構。此外Lecun等人提出的卷積神經網路是第一個真正多層結構學習演算法,它利用空間相對關系減少參數數目以提高訓練性能。BP神經網路是ANN人工神經中的一種,常用的神經網路有BP、RBF、SOM、Hopfield等等,其功能不經相同,可總體來說ANN的主要功能是模式識別和分類訓練。最本質的區別可以說是學習方法不同,或者說模型的優化方法不同。前者應該是基於遺傳演算法進行網路權值的學習,而後者大都是採用反向傳播(BP)演算法進行權值學習,而這兩種演算法差異很大。建議你分別了解:
E. 自組織映射SOM(Self Organizing Map)
自組織映射Self Organizing Map (SOM)屬於無監督學習(Unsupervised Learning)神經網路的一類,一般用於特徵識別。簡單來說,SOM就是把一系列高維數據集映射成低維的離散數據集(通常是二維或者一維),而映射後的數據集通常會以拓撲圖的形式表示,常見的比如n*n的網格/坐標圖,每個cell或node代表一類數據向量,cell或node越相近表示兩類數據越接近。
所以SOM通常可以運用在聚類問題中,可以將數據集中相似的數據以可視化的方式聚集起來。例如對一些股票進行可視化聚類:
所謂自組織self organizing涉及到一下幾個環節:
其中 為learning rate, 為neighbourhood函數。
為參數, 指「相鄰的半徑」, 為迭代次數。
F. 神經網路中SOM和SOFM區別
個人認為是一樣的
G. 數據可視化——四種非線性降維方式
非線性降維,計算數據集中每行與其他行的距離(默認為歐氏距離)轉換為概率。
PCA屬於線性降維,不能解釋復雜多項式之間的關系,t-SNE是根據t分布隨機領域的嵌入找到數據之間的結構特點。原始空間中的相似度由高斯聯合概率表示,嵌入空間的相似度由「學生t分布」表示。
載入所需包
第一步:計算數據集中每行與其他行的距離(默認為歐式距離),轉換為概率向量;
第二步:對每一行重復操作,得到概率矩陣;
第三步:沿兩條新軸用學生t分布對數據隨機化;
第四步:逐漸迭代,通過最小化KL散度,使得二維空間的新概率矩陣盡可能接近原高維空間。
較於正態分布,使用t分布能更好地分散可能的數據簇,更易識別;基於所實現的精度,將t-SNE與PCA和其他線性降維模型相比,結果表明t-SNE能夠提供更好的結果,這是因為演算法定義了數據的局部和全局結構之間的軟邊界。
缺點:不能保留全局結構、.計算量較大、不可預測新數據、無法像PCA一樣投影新數據、簇間距離意義不大。
dims :參數設置降維之後的維度,默認值為2
perplexity:控制距離轉化為概率的分布:局部結構 5-30-50 全局結構,取值小於 (nrow(data) - 1)/ 3,數據集越大,需要參數值越大;
theta:權衡速度與精度,取值越大,精度越低。精確 0-0.5-1 最快,默認值0.5;
eta:學習率,越少越精確,越多迭代次數越少,默認值200;
max_iter:最多迭代次數,默認值1000。
真假鈔數據,將banknote數據集去掉Status標簽列後賦值給 bn.tsne
可視化
查看每個特徵的降維效果圖:
https://www.jianshu.com/p/824be2661d42
假設數據分布在流形上,並沿著流形測量行間距離,利用流形學和投影技術達到降維目的。
第一步,計算高維空間中的點之間的距離,將它們投影到低維空間,並計算該低維空間中的點之間的距離;
第二步,使用隨機梯度下降來最小化這些距離之間的差異。
相較於 t-SNE ,計算量較小、可預測新數據、確定性演算法、保留雙結構
n_neighbors:控制模糊搜索區域的半徑:更少鄰域 到 更多鄰域;
min_dist:低維下允許的行間最小距離:更集中 到 更分散;
metric:選擇距離的測度方法:歐氏距離、曼哈頓距離等;
n_epochs:優化步驟的迭代次數。
數據框包含4個變數,50個觀測。
Murder:每十萬人中因謀殺逮捕人數
Assault:每十萬人中因攻擊逮捕人數
UrbanPop:城鎮人口百分比
Rape:每十萬人中因強奸逮捕人數
根據umap1的大小將數據分簇,並設置不同的顏色:
設定 n_components = 3, 再運行 UMAP,將得到結果的 layout 部分傳遞給 ggpairs()。
as.data.frame() %>%
setNames(c("umap1", "umap2")) %>%
GGally::ggpairs() +
theme_bw()
https://www.jianshu.com/p/ffe8a7e1e5a0
是一種自組織(競爭型)神經網路,用兩個維度來表示一個數據集,使相似的行更靠近。將距離小的個體集合劃分為同一類別,距離大的個體集合劃分為不同類別。
相較於K-means,SOM無需預先提供聚類數量。
SOM 與 LLE 的優點:非線性還原演算法、新數據可以映射到SOM上、訓練成本相當不高、LLE演算法可重復。
SOM 與 LLE 的缺點:
1.輸入層網路:輸入層網路節點與數據集同行數,同列數,但數據集需要歸一化。
2.輸出層網路:一般根據數據集的維度來構建輸出層網路。
(例:二維情況,希望分為4類,輸出層可設計為4*2的矩陣)
3.隨機給每個節點分配權重
根據輸入層的數據集的維度和輸出層的的預估分類數,定義權重節點的維度。
(例:數據集是二維的,權重的行數就定為2,分4類,權重的列數就選4。權重值一般給定一個0-1之間的隨機值)
4.隨機選擇一行,並計算其與網格中每個節點權重的距離(相似度,通常為歐式距離),把此行放到權重與該行距離最小的節點中(BMU,best matching unit)。
5.更新BMU(基本思想是:越靠近優勝節點,更新幅度越大;越遠離優勝節點,更新幅度越小)及其鄰域內節點的權重(取決於鄰域函數)。
6.重復步驟3-5,迭代指定次數。
LLE是廣泛使用的圖形圖像降維方法,屬於流形學習(Manifold Learning)的一種,實現簡單,其假設數據在較小的局部是線性的,也就是說,某一個數據可以由它鄰域中的幾個樣本來線性表示。(LLE 非常適合處理捲起或扭曲狀的數據,但不能是閉合流形,不能是稀疏的數據集,不能是分布不均勻的數據集等等,這限制了它的應用。)
1.計算行間距,設定超參數k。
2.對一行選出其最近的k行,表示為其線性組合,該線性組合系數為權重。
3.對每行重復操作,使得數據在2或3維空間中(近乎)保持該線性組合關系。
優點:可以學習任意維的局部線性的低維流形、計算復雜度相對較小、實現容易。
缺點:演算法對最近鄰樣本數的選擇敏感,不同的最近鄰數對最後的降維結果有很大影響。
除了維數,k (近鄰數量)是唯一需要確定的超參數,K可以通過函數計算出來:calc_k()
① m 表示維數,通常2 或 3
② kmin,kmax 決定 k 取值域
③ parallel,是否多核運行,默認為否
④ cpus 指定使用 cpu 核數
設置列名
檢查缺失值
3D圖形展示
讓3D圖像可以用滑鼠轉動
找出使rho最小的K值
使用最優的K值,降維:
H. SOM是怎樣一種模型
SOM是一種可以用於聚類的神經網路模型。
- Matlab的神經網路工具箱裡面有:Cluster Data with a Self-Organizing Map
- Wikipedia的解釋也很不錯:Self-organizing map
SOM是一個單層的神經網路。
神經元採用競爭的方式激活,每個神經元有一個權值向量,輸入向量會激活與之最接近的神經元,這個神經元叫做獲勝神經元(winner)。
所有的神經元組織成一個網格,網格可以是六邊形、四邊形……,甚至是鏈狀、圓圈……
這個隨便自己設定。
網路的結構通常取決於輸入的數據在空間中的分布
I. 神經網路里的 線性層 競爭層 有啥區別
神經網路有很多種。有BP,SOM,ART1,ART2等等。有有師教導如BP,有無師教導如SOM,ART1,ART2。你說的競爭層屬於無師教導。基本上是經過向量的運算後取歐氏距離然後處理,一個是線性的一個是平面的。你要具體了解可以買相關書籍裡面會有詳細的介紹,具體參看SOM模型和ART1型網。
J. 第五章 神經網路
神經網路 :神經網路是由具有適應性的簡單單元組成的廣泛並行互連的網路,它的組織能夠模擬生物神經系統對真實世界物體所作出的交互反應。
神經網路中最基本的成分便是 神經元模型 。
M-P神經元模型:
感知機由兩層神經元組成,分別為輸入層、輸出層。
以下是具體過程:
多層神經網路的拓撲結構如圖:
如上圖可知,多層網路由輸入層、隱含層和輸出層組成,頂層是輸出層,底層是輸入層,中間的便是隱含層。隱含層與輸出層都具有功能神經元。
多層前饋神經網路的結構需要滿足:
1、每層神經元必須與下一層完全互連
2、神經元之間不存在同層連接
3、神經元不可跨層連接
只需包含一個足夠多神經元的隱層,就能以任意精度逼近任意復雜度的連續函數
BP神經網路由於學習能力太強大比較榮譽造成過擬合問題,故有兩種策略來減緩過擬合的問題:
1、早停:將數據分成訓練集和驗證集,訓練集學習,驗證集評估性能,在訓練過程中,若訓練集的累積誤差降低,而驗證集的累積誤差提高,則終止訓練;
2、引入正則化:其基本思想是在誤差目標函數中增加一個用於描述網路復雜程度的部分,有如連接權和閾值的平方和:
其中λ∈(0,1)用於對累積經驗誤差與網路復雜度這兩項進行折中,常通過交叉驗證法來估計。
神經網路的訓練過程可看作一個參數尋優的過程,即尋找到適當的參數使得E最小。於是我們時常會談及「全局最小」和「局部最小」。
1、全局最小:即全局最小解,在參數空間中,所有其他點的誤差函數值均大於該點;
2、局部最小:即局部最小解,在參數空間中,其鄰近的點的誤差函數值均大於該點。
我們要達到局部極小點,很容易,只要滿足梯度為零的點便是了,局部極小點可以有多個,但全局最小點只有一個。顯然,我們追求的是全局最小,而非局部極小,於是人們通常採用以下策略來試圖「跳出」局部極小,使其接近全局最小:
1、以多組不同參數值初始化多個神經網路,按標准方法訓練,在迭代停止後,取其中誤差最小的解作為最終參數;
2、使用隨機梯度下降(在計算梯度時加入了隨機因素),使得在局部最小時,計算的梯度仍可能不為0,從而可能跳出局部極小,繼續進行迭代;
3、「模擬退火」技術,在每一步都以一定的概率接受比當前解更差的結果,但接受「次優解」的概率要隨著迭代進行,時間推移而逐漸減低以確保演算法的穩定。
1、RBF網路
單隱層前饋神經網路 ,使用徑向基函數作為隱層神經元激活函數,輸出層是對隱層神經元輸出的線性組合。RBF網路可表示為:
2、ART網路
競爭型學習 (神經網路中一種常用的 無監督學習 策略),由 比較層、識別層、識別閾值和重置模塊 組成。接收到比較層的輸入信號後,識別層神經元相互競爭以產生獲勝神經元,最簡單的方式就是計算輸入向量與每個識別層神經元所對應的模式類代表向量間的距離,距離小者獲勝。若獲勝神經元對應的代表向量與輸入向量間 相似度大於識別閾值 ,則將輸入樣本歸為該代表向量所屬類別,網路 連接權 也會進行 更新 以保證後面接收到相似的輸入樣本時該模式類會計算出更大的相似度,使得這樣的樣本能夠歸於一類;如果 相似度不大於識別閾值 ,則 重置模塊 會在 識別層 加一個神經元,其 代表向量 就 設置 為當前 輸入向量 。
3、SOM網路
競爭型學習的無監督神經網路 ,將高維輸入數據映射到低維空間(通常是二維),且保持輸入數據在高維空間的拓撲結構。
4、級聯相關網路
結構自適應網路 。
5、Elman網路
遞歸神經網路 。
6、Boltzmann機
基於能量的模型,其神經元分為顯層與隱層,顯層用於數據輸入輸出,隱層被理解為數據的內在表達。其神經元皆為布爾型,1為激活,0為抑制。
理論上,參數越多的模型其復雜程度越高,能完成更加復雜的學習任務。但是復雜模型的訓練效率低下,容易過擬合。但由於大數據時代、雲計算,計算能力大幅提升緩解了訓練效率低下,而訓練數據的增加則可以降低過擬合風險。
於是如何增加模型的復雜程度呢?
1、增加隱層數;
2、增加隱層神經元數.
如何有效訓練多隱層神經網路?
1、無監督逐層訓練:每次訓練一層隱節點,把上一層隱節點的輸出當作輸入來訓練,本層隱結點訓練好後,輸出再作為下一層的輸入來訓練,這稱為預訓練,全部預訓練完成後,再對整個網路進行微調。「預訓練+微調」即把大量的參數進行分組,先找出每組較好的設置,再基於這些局部最優的結果來訓練全局最優;
2、權共享:令同一層神經元使用完全相同的連接權,典型的例子是卷積神經網路。這樣做可以大大減少需要訓練的參數數目。
深度學習 可理解為一種特徵學習或者表示學習,是通過 多層處理 ,逐漸將初始的 低層特徵表示 轉化為 高層特徵表示 後,用 簡單模型 即可完成復雜的分類等 學習任務 。