❶ 神經網路、流形和拓撲
譯者:樹石
最近,由於在諸如計算機視覺領域取得了突破性成果,深層神經網路引起了廣泛的關注和興趣。
然而,該領域仍然存在一些顧慮。比如, 要了解神經網路能夠做什麼相當具有挑戰性 。如果一個網路被訓練得很好,輸出高品質的結果,但了解它是如何做到的具有挑戰性。如果網路出現故障,也很難理解什麼地方出了錯。
雖然通常理解深層神經網路的行為比較困難, 探索低維度深層神經網路相對容易的多 ——在每一層只有幾個神經元的網路。事實上,我們可以通過創建可視化效果來理解網路的行為和對網路的培訓。這種方法將讓我們 獲取對神經網路行為的深層直覺,並觀察到神經網路和拓撲學之間的聯系 。
另外,還探討了一些有趣的事情,包括對某些數據集進行分類的神經網路的最低復雜性。
讓我們從一個非常簡單的數據集開始:在一個平面上的兩條曲線。該網路將學習如何將線上的點歸類為這一個還是另外一個。
將神經網路(或任何分類演算法)的行為可視化,顯而易見的方法是簡單地看它是如何對每一個可能的數據點進行分類。
我們將先從最簡單的神經網路開始,只迅雀有一個輸入層和一個輸出層的網路。這樣的網路只是試圖通過畫一條線將兩個類數據的分離。
諸如此類的網路不是很有趣。現代神經網路一般在輸入和輸出之間,具有稱為「隱藏」層的多個層次。至少包含一個隱藏層。
與以前一樣,我們可以通過查看它對其領域不同點進行的處理來觀察這個網路的行為。數據分割通過一條曲線來完成,而不是直線。
通過神經網路的每一層,數據被轉換,創建了一個新的 表示 (represention)。我們可以看一下在這些表示中的數據以及網路是如何劃分他們的。當我們到達最後一層的表示時,網路只需要繪制一條線(或者,在更高維度里繪制一個超平面)。
在前面的可視化中,我們看到其「原始」表示的數據,你可以將其視為輸入層。現在我們將看看經過第一層轉化後,你可以認為這是我們看到了隱藏層。
每個維度畝孝早對應於該層中神經元的興奮。
在上一節中所概述的方法,我們知道通過查看每層的表示來了解網路。這給了我們一個離散的表示列表。
最棘手的部分是了解我慎鄭們是如何從一個表示到另一個的。值得慶幸的是,神經網路層具有很好的性能,使這一點變得很容易。
神經網路由多種不同類型的層構成。我們將談論一個具體的例子:雙曲正切層(tanh)。一個雙曲正切層tanh(Wx+b)由以下組成:
我們可以觀察到這是一個連續變換,具體如下:
這個故事和其它標准層大體相同,由一個映射變換之後單調激活函數的逐點應用。
我們可以用這種技術來了解更復雜的網路。例如,下面的網路劃分兩個被略微纏結的螺旋,使用四個隱藏層。隨著時間的推移,我們可以看到它的「原始」表示轉移到更高層次為了對數據進行分類。而螺旋最初是糾結的,最終他們是線性可分的。
另一方面,以下的網路,也是使用多個層,分類兩個螺旋沒有成功,反而更加纏結。
這里值得明確指出,這些任務將變得有些困難,如果我們使用的是低維神經網路。如果我們使用更廣泛的網路,這一切都將是相當容易的。
( Andrei Karpathy有 很好的演示 基於ConvnetJS,讓您可以互動式地瀏覽網路,就像上面的這種可視化培訓! )
每一層都會拉伸和擠壓空間,但它永遠不會切割、斷裂和褶皺它。直觀地說,我們可以看到它保留了拓撲性質。例如,一組數據將在轉化後保持連接,如果它之前是連接的(反之亦然)。
這樣的轉換,不影響拓撲結構,被稱為同胚。在形式上,他們是連續函數的雙向映射。
定理 :具有N個輸入和N個輸出的層是同胚,如果權重矩陣W是非奇異的。(雖然需要小心它的值域和范圍。)
證明 :讓我們一步步考慮:
因此,如果W所有因子都是非零的,我們的層就是同胚的。∎
這一結果始終正確,如果我們將任意多個這些層組合在一起。
考慮包含兩個類的二維數據集
![][01]
[01]: http://latex.codecogs.com/svg.latex?,A,B subsetmathbb{R}^2
A = {x | d(x,0) < 1/3}
B = {x | 2/3 < d(x,0) < 1}
如前面提到的,用一個S形函數或SOFTMAX層分類相當於試圖找到一個超平面(或在這種情況下是一條線)在最終表示中分隔A與B。只有兩個隱藏層的網路對於分離這組數據在拓撲上是無能的,並註定要失敗。
在下面的可視化圖中,我們觀察到網路訓練隱藏的表示,通過試圖使用一條直線來分類。我們可以看到,它在努力學習某種方式來做到這一點是不斷掙扎而且困難重重。
最後,它被拉到一個相當低效的擬合。雖然它實際上能夠實現〜80%分類精度。
這個例子只有一個隱藏層,但無論如何它都會失敗。
證明 :要麼每層是一個同胚,要麼該層的權重矩陣具有0因子。如果該層是同胚的,A被B所環繞,一個直線不能將它們分開。但是,假設它具有一個0因子:那麼數據集將在某些軸上崩塌。因為我們正在處理的東西同胚於原始數據集,A被B所包圍,在任一軸崩塌於意味著我們將有一些A中的點和B中的點混合,從而無法完成A與B的區分。∎
如果我們增加第三個隱藏層,問題就變得微不足道。神經網路學習以下表示:
用這個表示,我們可以用一個超平面分開數據集。
為了更好的理解這是怎麼做到的,讓我們考慮一個更簡單的一維數據集:
![][02]
[02]: http://latex.codecogs.com/svg.latex?,A=[- frac{1}{3},,frac{1}{3}]
![][03]
[03]: http://latex.codecogs.com/svg.latex?,B=[-1,- frac{2}{3}]cup[frac{2}{3},1]
如果不使用兩個或多個隱藏單元層,我們不能將此數據集進行分類。但是,如果我們使用一個帶有兩層的網路,我們就學會將數據轉化成一個很好的曲線,讓我們能用一條線將數據分開:
發生了什麼?一個隱藏單元學習當x>-1/2時興奮,另一個單元學習當x>1/2時興奮。當第一個興奮,而不是第二個時,我們知道數據屬於A。
這個假說和現實世界的數據集相關嗎,比如圖像數據?如果你認真對待流形假說,我覺得他值得思考。
流形假說是指自然數據在它的嵌入空間構成了較低維度的數據流形。同時具有理論和實驗的理由相信這一假說是真的。如果你相信這一點,那麼分類演算法的任務是從根本上分離一堆糾結的流形。
在前面的例子中,一個類完全被另一個類包圍。然而,這似乎並不可能,比如狗的圖像流形完全被貓的圖像流形包圍。因為我們將在下一節中看到其他更合理的拓撲情況。
另一個有趣的數據集要考慮的是兩個鏈接的tori,A和B。
就像之前的數據集,這個數據不能被分離,如果不使用n+1維,即4個維度。
鏈接在結點理論(knot theory)中被討論,拓撲學的一個領域。有時,當我們看到一個鏈接,並不能一眼看出它是否真正相連(一堆被纏結在一起的事情,但可以通過連續變形分開)。
如果僅僅使用3個層次的神經網路就能夠對其進行分類,那麼它就是一個未鏈接(unlink)。(問:理論上是否能將所有未鏈接都通過只有3個層次的網路進行分類?)
從這個結的角度看,我們通過神經網路產生的連續可視化不僅僅是一個漂亮的動畫,它是解開鏈接的程序。在拓撲學中,我們把它稱為原始鏈接和分離環之間一個環境同痕(an ambient isotopy)。
形式上,流形A和B之間的一個環境同痕是一個連續函數F:[0,1]× X→Y,使得每個Ft是一個從X到它自己范圍的同胚,F0是一個標識函數,並F1是從A到B的一個映射。也就是,Ft是從A到自身的映射到從A到B的映射的連續轉換。
定理 :在輸入和網路層之間具有環境同痕,如果:
證明 :同樣,我們分別考慮網路的每個階段:
我想這也許是十分有趣的,通過程序自動發現這樣的環境同痕並自動證明某些鏈接的等價性,或者某些環節是可分離的。這將很有趣知道,如果神經網路是否可以各種情況。
(顯然,確定結點是否重要是一個NP,這不太適用於神經網路。)
我們已經談到的這類鏈接,到目前為止似乎不太可能是現實世界的數據,但他們是更高維的生成。這似乎是合理的。
鏈接和結點是1維流形,但我們需要4個維度才能夠解開他們。類似地,可能需要更高維度的空間,以便能夠解開n維流形。所有n維流形可在2n+2維度上解開。
(我對於結點理了解不多,確實需要更多地了解維度和鏈接。如果我們知道一個流形可以被嵌入到n維空間,而不是流形的維度,我們有什麼限制? )
很自然的想法,一個神經網路試圖直接將流形從糾結盡可能薄的部分拉出。雖然這不會在任何情況下都是一個好的解決方案,但是大多情況它可以實現較高的分類准確率,到達一個誘人的最低點(local miminum)。
它試圖拉伸具有高延展性的空間,並銳化靠近中斷處。我們知道這些事情發生。壓縮的處罰,在對數據點衍生層的處罰,都是很自然的做法。
由於這些局部最小點對於解決這種拓撲問題完全無用,拓撲問題值得很好的探索。
在另一方面,如果我們只關心取得了良好的分類結果,好像我們可能並不關心。如果很小的一個數據流形的點陷入另一個流形,會是一個問題嗎?看起來我們應該能夠得到很好的分類結果,盡管有這個問題。
(我的直覺是,像這樣欺騙自己是一個壞主意:這是很難想像它不會是死路一條。特別是,針對一個局部最小很重要的優化問題,選擇這種方式不能真正解決問題,這似乎是糟糕的表現。)
我越思考標準的神經網路層 - 即用映射變換後逐點激活功能 - 我就越不抱幻想。很難想像,他們能夠很好地操縱流形。
也許這可能是有意義的,我們採用一個非常不同的層,而不是傳統的神經網路層?
非常自然的感覺是,通過一個矢量場的學習,我們希望流形移動方向:
然後再對他變形空間:
人們可以學會在固定點的矢量場(只是需要從訓練集合選取一些固定點作為錨),並以某種方式介入。上面的矢量場的形式是:
![][04]
[04]: http://latex.codecogs.com/svg.latex?,F(x)= frac{v_0f_0(x)+v_1f_1(x)}{1+f_0(x)+f_1(x)}
其中,v0和v1是矢量,F0(X)和F1(X)是n維高斯函數。這一點來自於徑向基函數(radial basis functions)的靈感。
我也開始覺得線性可分可能是一個巨大的,也可能不合理的,神經網路的需求。在某些方面,非常自然的會想到使用K-近鄰(K-NN)。然而,K-NN的成功在很大程度上取決於它所分類的數據表示(represention),因此,人們在K-NN之前,需要一種良好的表示。
作為第一個實驗中,我訓練了一些MNIST網路(兩層卷積網,沒有下降現象)到達〜1%測試誤差。然後我放棄了最後的SOFTMAX層而使用K-NN演算法,我能夠始終如一地降低0.1-0.2%的測試誤差。
不過,這並不完全覺得是正確的事情。該網路還在試圖做線性分類,但由於我們使用K-NN測試,它能夠從它所犯的錯誤中恢復一些。
K-NN有區別於相對於它的網路層次,因為會用到(1 /距離值)加權。因此,我們可以直接訓練網路K-NN分類。這可以被認為是一種「k-NN」層替SOFTMAX。
我們不希望為每個小批量數據遍歷整個訓練集,因為這將非常消耗計算資源。我認為一個很好的辦法是根據小批次的其它元素對每個小批次的元素進行分類,賦予每一個元素(1 /從分類目標的距離)的權重。
可悲的是,即使有完善的體系結構,採用K-NN只下到5-4%檢測錯誤 - 使用簡單的架構會得到更壞的結果。不過,我已經很少把努力放在高維參數上了。
不過,我真的很喜歡這個方法,因為它好像就是我們「要求」網路運行的更加合理。我們希望在同一流形的點比其它的點更加接近,相對於由一個超平面被分離的其他流形。這相對需要拉伸不同類別流形之間的空間,同時收縮每一個流形。這感覺就像是在簡化問題。
具有拓撲性質的數據,例如鏈接,可能導致無法使用低維網路進行線性分類,無論深度有多大。即使在技術上是可能的情況下,例如螺旋,也是非常具有挑戰性的。
為了使神經網路准確的分類數據,多個層次有時是必要的 。此外,傳統的神經網路層似乎並不能很好的處理流形數據;即使我們巧妙的手工設置權重,想要緊湊的表達我們想要的轉換也是非常困難的。新建層次,特別使用流形相關的機器學習,可能是有用的補充。
(這是一個發展中的研究項目。相關研究信息會在網上公布。我會很高興聽聽您對這些想法的反饋:您可以發表評論。對於錯別字,技術錯誤,或任何澄清,我們鼓勵你發一個請求在GitHub上。)
致謝
謝謝Yoshua Bengio,邁克爾·尼爾森,達里奧 Amodei,埃利安娜洛奇,雅各布斯坦哈特和Tamsyn Waterhouse的意見和鼓勵。
❷ 神經網路淺談
人工智慧技術是當前炙手可熱的話題,而基於神經網路的深度學習技術更是熱點中的熱點。去年穀歌的Alpha Go 以4:1大比分的優勢戰勝韓國的李世石九段,展現了深度學習的強大威力,後續強化版的Alpha Master和無師自通的Alpha Zero更是在表現上完全碾壓前者。不論你怎麼看,以深度學習為代表的人工智慧技術正在塑造未來。
下圖為英偉達(NVIDIA)公司近年來的股價情況, 該公司的主要產品是「圖形處理器」(GPU),而GPU被證明能大大加快神經網路的訓練速度,是深度學習必不可少的計算組件。英偉達公司近年來股價的飛漲足以證明當前深度學習的井噴之勢。
好,話不多說,下面簡要介紹神經網路的基本原理、發展脈絡和優勢。
神經網路是一種人類由於受到生物神經細胞結構啟發而研究出的一種演算法體系,是機器學習演算法大類中的一種。首先讓我們來看人腦神經元細胞:
一個神經元通常具有多個樹突 ,主要用來接受傳入信息,而軸突只有一條,軸突尾端有許多軸突末梢,可以給其他多個神經元傳遞信息。軸突末梢跟其他神經元的樹突產生連接,從而傳遞信號。
下圖是一個經典的神經網路(Artificial Neural Network,ANN):
乍一看跟傳統互聯網的拓撲圖有點類似,這也是稱其為網路的原因,不同的是節點之間通過有向線段連接,並且節點被分成三層。我們稱圖中的圓圈為神經元,左邊三個神經元組成的一列為輸入層,中間神經元列為隱藏層,右邊神經元列為輸出層,神經元之間的箭頭為權重。
神經元是計算單元,相當於神經元細胞的細胞核,利用輸入的數據進行計算,然後輸出,一般由一個線性計算部分和一個非線性計算部分組成;輸入層和輸出層實現數據的輸入輸出,相當於細胞的樹突和軸突末梢;隱藏層指既不是輸入也不是輸出的神經元層,一個神經網路可以有很多個隱藏層。
神經網路的關鍵不是圓圈代表的神經元,而是每條連接線對應的權重。每條連接線對應一個權重,也就是一個參數。權重具體的值需要通過神經網路的訓練才能獲得。我們實際生活中的學習體現在大腦中就是一系列神經網路迴路的建立與強化,多次重復的學習能讓迴路變得更加粗壯,使得信號的傳遞速度加快,最後對外表現為「深刻」的記憶。人工神經網路的訓練也借鑒於此,如果某種映射關系出現很多次,那麼在訓練過程中就相應調高其權重。
1943年,心理學家McCulloch和數學家Pitts參考了生物神經元的結構,發表了抽象的神經元模型MP:
符號化後的模型如下:
Sum函數計算各權重與輸入乘積的線性組合,是神經元中的線性計算部分,而sgn是取符號函數,當輸入大於0時,輸出1,反之輸出0,是神經元中的非線性部分。向量化後的公式為z=sgn(w^T a)(w^T=(w_1,w_2,w_3),a=〖(a_1,a_2,a_3)〗^T)。
但是,MP模型中,權重的值都是預先設置的,因此不能學習。該模型雖然簡單,並且作用有限,但已經建立了神經網路大廈的地基
1958年,計算科學家Rosenblatt提出了由兩層神經元組成(一個輸入層,一個輸出層)的神經網路。他給它起了一個名字–「感知器」(Perceptron)
感知器是當時首個可以學習的人工神經網路。Rosenblatt現場演示了其學習識別簡單圖像的過程,在當時引起了轟動,掀起了第一波神經網路的研究熱潮。
但感知器只能做簡單的線性分類任務。1969年,人工智慧領域的巨擘Minsky指出這點,並同時指出感知器對XOR(異或,即兩個輸入相同時輸出0,不同時輸出1)這樣的簡單邏輯都無法解決。所以,明斯基認為神經網路是沒有價值的。
隨後,神經網路的研究進入低谷,又稱 AI Winter 。
Minsky說過單層神經網路無法解決異或問題,但是當增加一個計算層以後,兩層神經網路不僅可以解決異或問題,而且具有非常好的非線性分類效果。
下圖為兩層神經網路(輸入層一般不算在內):
上圖中,輸出層的輸入是上一層的輸出。
向量化後的公式為:
注意:
每個神經元節點默認都有偏置變數b,加上偏置變數後的計算公式為:
同時,兩層神經網路不再使用sgn函數作為激勵函數,而採用平滑的sigmoid函數:
σ(z)=1/(1+e^(-z) )
其圖像如下:
理論證明: 兩層及以上的神經網路可以無限逼近真實的對應函數,從而模擬數據之間的真實關系 ,這是神經網路強大預測能力的根本。但兩層神經網路的計算量太大,當時的計算機的計算能力完全跟不上,直到1986年,Rumelhar和Hinton等人提出了反向傳播(Backpropagation,BP)演算法,解決了兩層神經網路所需要的復雜計算量問題,帶動了業界使用兩層神經網路研究的熱潮。
但好景不長,演算法的改進僅使得神經網路風光了幾年,然而計算能力不夠,局部最優解,調參等一系列問題一直困擾研究人員。90年代中期,由Vapnik等人發明的SVM(Support Vector Machines,支持向量機)演算法誕生,很快就在若干個方面體現出了對比神經網路的優勢:無需調參;高效;全局最優解。
由於以上原因,SVM迅速打敗了神經網路演算法成為主流。神經網路的研究再一次進入低谷, AI Winter again 。
多層神經網路一般指兩層或兩層以上的神經網路(不包括輸入層),更多情況下指兩層以上的神經網路。
2006年,Hinton提出使用 預訓練 」(pre-training)和「微調」(fine-tuning)技術能優化神經網路訓練,大幅度減少訓練多層神經網路的時間
並且,他給多層神經網路相關的學習方法賦予了一個新名詞–「 深度學習 」,以此為起點,「深度學習」紀元開始了:)
「深度學習」一方面指神經網路的比較「深」,也就是層數較多;另一方面也可以指神經網路能學到很多深層次的東西。研究發現,在權重參數不變的情況下,增加神經網路的層數,能增強神經網路的表達能力。
但深度學習究竟有多強大呢?沒人知道。2012年,Hinton與他的學生在ImageNet競賽中,用多層的卷積神經網路成功地對包含一千類別的一百萬張圖片進行了訓練,取得了分類錯誤率15%的好成績,這個成績比第二名高了近11個百分點,充分證明了多層神經網路識別效果的優越性。
同時,科研人員發現GPU的大規模並行矩陣運算模式完美地契合神經網路訓練的需要,在同等情況下,GPU的速度要比CPU快50-200倍,這使得神經網路的訓練時間大大減少,最終再一次掀起了神經網路研究的熱潮,並且一直持續到現在。
2016年基於深度學習的Alpha Go在圍棋比賽中以4:1的大比分優勢戰勝了李世石,深度學習的威力再一次震驚了世界。
神經網路的發展歷史曲折盪漾,既有被捧上神壇的高潮,也有無人問津的低谷,中間經歷了數次大起大落,我們姑且稱之為「三起三落」吧,其背後則是演算法的改進和計算能力的持續發展。
下圖展示了神經網路自發明以來的發展情況及一些重大時間節點。
當然,對於神經網路我們也要保持清醒的頭腦。由上圖,每次神經網路研究的興盛期持續10年左右,從最近2012年算起,或許10年後的2022年,神經網路的發展將再次遇到瓶頸。
神經網路作為機器學習的一種,其模型訓練的目的,就是使得參數盡可能的與真實的模型逼近。理論證明,兩層及以上的神經網路可以無限逼近真實的映射函數。因此,給定足夠的訓練數據和訓練時間,總能通過神經網路找到無限逼近真實關系的模型。
具體做法:首先給所有權重參數賦上隨機值,然後使用這些隨機生成的參數值,來預測訓練數據中的樣本。假設樣本的預測目標為yp ,真實目標為y,定義值loss,計算公式如下:
loss = (yp -y) ^2
這個值稱之為 損失 (loss),我們的目標就是使對所有訓練數據的損失和盡可能的小,這就轉化為求loss函數極值的問題。
一個常用方法是高等數學中的求導,但由於參數不止一個,求導後計算導數等於0的運算量很大,所以常用梯度下降演算法來解決這樣的優化問題。梯度是一個向量,由函數的各自變數的偏導數組成。
比如對二元函數 f =(x,y),則梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函數值上升最快的方向。梯度下降演算法每次計算參數在當前的梯度,然後讓參數向著梯度的反方向前進一段距離,不斷重復,直到梯度接近零時截止。一般這個時候,所有的參數恰好達到使損失函數達到一個最低值的狀態。下圖為梯度下降的大致運行過程:
在神經網路模型中,由於結構復雜,每次計算梯度的代價很大。因此還需要使用 反向傳播 (Back Propagation)演算法。反向傳播演算法利用了神經網路的結構進行計算,不一次計算所有參數的梯度,而是從後往前。首先計算輸出層的梯度,然後是第二個參數矩陣的梯度,接著是中間層的梯度,再然後是第一個參數矩陣的梯度,最後是輸入層的梯度。計算結束以後,所要的兩個參數矩陣的梯度就都有了。當然,梯度下降只是其中一個優化演算法,其他的還有牛頓法、RMSprop等。
確定loss函數的最小值後,我們就確定了整個神經網路的權重,完成神經網路的訓練。
在神經網路中一樣的參數數量,可以用更深的層次去表達。
由上圖,不算上偏置參數的話,共有三層神經元,33個權重參數。
由下圖,保持權重參數不變,但增加了兩層神經元。
在多層神經網路中,每一層的輸入是前一層的輸出,相當於在前一層的基礎上學習,更深層次的神經網路意味著更深入的表示特徵,以及更強的函數模擬能力。更深入的表示特徵可以這樣理解,隨著網路的層數增加,每一層對於前一層次的抽象表示更深入。
如上圖,第一個隱藏層學習到「邊緣」的特徵,第二個隱藏層學習到「邊緣」組成的「形狀」的特徵,第三個隱藏層學習到由「形狀」組成的「圖案」的特徵,最後的隱藏層學習到由「圖案」組成的「目標」的特徵。通過抽取更抽象的特徵來對事物進行區分,從而獲得更好的區分與分類能力。
前面提到, 明斯基認為Rosenblatt提出的感知器模型不能處理最簡單的「異或」(XOR)非線性問題,所以神經網路的研究沒有前途,但當增加一層神經元後,異或問題得到了很好地解決,原因何在?原來從輸入層到隱藏層,數據發生了空間變換,坐標系發生了改變,因為矩陣運算本質上就是一種空間變換。
如下圖,紅色和藍色的分界線是最終的分類結果,可以看到,該分界線是一條非常平滑的曲線。
但是,改變坐標系後,分界線卻表現為直線,如下圖:
同時,非線性激勵函數的引入使得神經網路對非線性問題的表達能力大大加強。
對於傳統的樸素貝葉斯、決策樹、支持向量機SVM等分類器,提取特徵是一個非常重要的前置工作。在正式訓練之前,需要花費大量的時間在數據的清洗上,這樣分類器才能清楚地知道數據的維度,要不然基於概率和空間距離的線性分類器是沒辦法進行工作的。然而在神經網路中,由於巨量的線性分類器的堆疊(並行和串列)以及卷積神經網路的使用,它對雜訊的忍耐能力、對多通道數據上投射出來的不同特徵偏向的敏感程度會自動重視或忽略,這樣我們在處理的時候,就不需要使用太多的技巧用於數據的清洗了。有趣的是,業內大佬常感嘆,「你可能知道SVM等機器學習的所有細節,但是效果並不好,而神經網路更像是一個黑盒,很難知道它究竟在做什麼,但工作效果卻很好」。
人類對機器學習的環節干預越少,就意味著距離人工智慧的方向越近。神經網路的這個特性非常有吸引力。
1) 谷歌的TensorFlow開發了一個非常有意思的神經網路 入門教程 ,用戶可以非常方便地在網頁上更改神經網路的參數,並且能看到實時的學習效率和結果,非常適合初學者掌握神經網路的基本概念及神經網路的原理。網頁截圖如下:
2) 深度學習領域大佬吳恩達不久前發布的《 神經網路和深度學習 》MOOC,現在可以在網易雲課堂上免費觀看了,並且還有中文字幕。
3) 《神經網路於深度學習》(Michael Nielsen著)、《白話深度學習與TensorFlow》也是不錯的入門書籍。
❸ 用神經網路處理數據會破壞數據的完整性嗎
用神經網路處理數據不會破壞數據的完整性,相反,它可以幫助我們更好地理解和利用數據。
神經網路是一種模仿人類神經系統進行信息處理的數學模型。它能夠通過學習大量數據,自動發現數據中的特徵並建立對應關系,從而實現數據的分類、預測、識別等多種功能。
當我們使用神經洞李網路處理數據納則遲時,通常需要將原始數據進行預處理和清洗,以去除無效信息和異常值,並將其轉換為適合神經網路處理的格式。這個過程中,雖然數據可能會發生一定的變化,但是這些變化都是可控的,並不會破壞數據的完整性。
事實上,神經網路處理數據的過程中,還可以通過一些技術手段來進一步保障數據的完整性和准確性。例如,在訓練神經網路時,可以採用交叉驗證、正則化等方法,避免出現過擬合和欠擬合等問題,從而提高模型的泛化能力和精度。
總之,用神經網路處理數據不會破壞數據的完整性,反而可以幫助我們更好地理解和利用數據。在處理數據時,我們需要注意數據的質量和准確性,並採取合適的方法和技術手段,以保證數據處理過程的可靠性盯亂和有效性。
❹ 神經網路的工作原理
「人腦是如何工作的?」
「人類能否製作模擬人腦的人工神經元?」
多少年以來,人們從醫學、生物學、生理學、哲學、信息學、計算機科學、認知學、組織協同學等各個角度企圖認識並解答上述問題。在尋找上述問題答案的研究過程中,逐漸形成了一個新興的多學科交叉技術領域,稱之為「神經網路」。神經網路的研究涉及眾多學科領域,這些領域互相結合、相互滲透並相互推動。不同領域的科學家又從各自學科的興趣與特色出發,提出不同的問題,從不同的角度進行研究。
人工神經網路首先要以一定的學習准則進行學習,然後才能工作。現以人工神經網路對於寫「A」、「B」兩個字母的識別為例進行說明,規定當「A」輸入網路時,應該輸出「1」,而當輸入為「B」時,輸出為「0」。
所以網路學習的准則應該是:如果網路作出錯誤的判決,則通過網路的學習,應使得網路減少下次犯同樣錯誤的可能性。首先,給網路的各連接權值賦予(0,1)區間內的隨機值,將「A」所對應的圖象模式輸入給網路,網路將輸入模式加權求和、與門限比較、再進行非線性運算,得到網路的輸出。在此情況下,網路輸出為「1」和「0」的概率各為50%,也就是說是完全隨機的。這時如果輸出為「1」(結果正確),則使連接權值增大,以便使網路再次遇到「A」模式輸入時,仍然能作出正確的判斷。
普通計算機的功能取決於程序中給出的知識和能力。顯然,對於智能活動要通過總結編製程序將十分困難。
人工神經網路也具有初步的自適應與自組織能力。在學習或訓練過程中改變突觸權重值,以適應周圍環境的要求。同一網路因學習方式及內容不同可具有不同的功能。人工神經網路是一個具有學習能力的系統,可以發展知識,以致超過設計者原有的知識水平。通常,它的學習訓練方式可分為兩種,一種是有監督或稱有導師的學習,這時利用給定的樣本標准進行分類或模仿;另一種是無監督學習或稱無為導師學習,這時,只規定學習方式或某些規則,則具體的學習內容隨系統所處環境 (即輸入信號情況)而異,系統可以自動發現環境特徵和規律性,具有更近似人腦的功能。
神經網路就像是一個愛學習的孩子,您教她的知識她是不會忘記而且會學以致用的。我們把學習集(Learning Set)中的每個輸入加到神經網路中,並告訴神經網路輸出應該是什麼分類。在全部學習集都運行完成之後,神經網路就根據這些例子總結出她自己的想法,到底她是怎麼歸納的就是一個黑盒了。之後我們就可以把測試集(Testing Set)中的測試例子用神經網路來分別作測試,如果測試通過(比如80%或90%的正確率),那麼神經網路就構建成功了。我們之後就可以用這個神經網路來判斷事務的分類了。
神經網路是通過對人腦的基本單元——神經元的建模和聯接,探索模擬人腦神經系統功能的模型,並研製一種具有學習、聯想、記憶和模式識別等智能信息處理功能的人工系統。神經網路的一個重要特性是它能夠從環境中學習,並把學習的結果分布存儲於網路的突觸連接中。神經網路的學習是一個過程,在其所處環境的激勵下,相繼給網路輸入一些樣本模式,並按照一定的規則(學習演算法)調整網路各層的權值矩陣,待網路各層權值都收斂到一定值,學習過程結束。然後我們就可以用生成的神經網路來對真實數據做分類。
❺ 怎麼判斷訓練神經網路的輸入
判斷訓練神經網路的輸入需要根據具體的應用場景和任務來進行。一般來說,輸入需要滿足以下幾個條件:
1. 數據的格式和類型:神輪渣經網路的輸入數據格式和類型必須與網路架構和訓練演算法相匹配。
2. 數據的質量:輸入數據必須具有足夠的質量,以確保模型能夠准確地從中學習。沖並例如,數據臘判悄的標記必須正確,數據的采樣必須准確。
3. 數據的數量:輸入數據必須包含足夠的樣本數量,以確保模型具有充分的訓練數據。如果數據量不足,容易導致過擬合和欠擬合問題。
4. 數據的適用性:輸入數據必須與目標任務相關聯。例如,如果需要訓練一個圖像分類器,那麼輸入數據應該是圖像數據,而不是文本數據。
5. 數據的可用性:輸入數據必須能夠被訪問和處理。這可能需要對數據進行預處理、歸一化等操作,以便使其適用於訓練神經網路。
❻ 神經網路原理
神經網路是一種受到人類神經系統啟發而設計的機器學習模型。它由多個稱為神經元的單元組成,這些神經元通過連接權重相互連接。神經網路利用輸入數據和這些連接權重來進行信息處理和模式識別。以下是神經網路的基本原理:
結構:神經網路由多個層級組成,包括輸入層、隱藏層(可以有多個)和輸出層。輸入層接收外部輸入數據,輸出層產生最終的預測結果或輸出。隱藏層位於輸入層和輸出層之間,其中每個隱藏層由多個神經元組芹銀成。
神經元:神經網路的基本單元是神經元。每個神經元接收來自上一層神經元的首首旁輸入,並通過連接權重對這些輸入進行加權求和。然後,應用一個激活函數來確定神經元的輸出。激活函數可以是簡單的閾值函數、Sigmoid函數、ReLU函數等,用於引入非線性特性。
前向傳播:神經網路的前向傳播是指從輸入層到輸出層的信息傳遞過程。輸入數據通過網路中的連接和加權求和,逐層傳遞到輸出層,最終生成預測結果。
反向傳播:反向傳播是神經網路用於訓練和調整連接權重的過程。它基於損失函數來度量預測結果與真實標簽之間的誤差。通過計算誤差梯度,反向傳播將誤差從輸出層向後傳播到隱藏層和輸入層,然後根據梯度更新連接權重,以減小誤差。
訓練:神經網路的訓練是通過不斷迭代前向傳播和反向傳播來調整連接權重,以使網路的預測結果與真實標簽更加接近。常用的訓練演算法包括梯度下降和其變體,以最小化損失函數。
通過逐漸調整連接權重者橡,神經網路能夠學習到輸入數據中的模式和特徵,從而實現識別、分類、預測等任務。它在各個領域中都有廣泛的應用,如圖像識別、自然語言處理、語音識別等。
❼ 如何用新的數據驗證BP神經網路
你已經訓練好了網路,用你的測試樣棚中本數頃消據導入網路就行了唄,Y=sim(net,p_text);p_text就是你的測雀和知試樣本,net就是你訓練好的網路。
❽ 關於用神經網路建立數學模型的方法
用神經網路建立數學模型的方法如下:
1、准備數據集:神經網路在模式識別、分類、預測等方面具有很強的學習能力和表達能力,在建立數學模型方面也能發揮重要的作用。對於要建立的數學模型,需要准備一定量的數據作為樣本,包括輸入數據和對應的輸出數據。數據集要保證數據量足夠且具有代表性,輸入數據和輸出數據之間具有一定的關系,能夠反映實際問題。
4、利用神經網路進行訓練和預測:訓練神經網路的目的是讓磨純神經網路學習到輸入數據和輸出數據之間的映射關系。訓練過程中要選擇合適的損失函數和優化演算法,以便讓神經網路在訓練過程中不斷優化自身的參數,提高預測的准確性和泛化能力。訓練完成後,可以利用神經網路進行預測,輸入新的數據,通過神經網路輸出相應的預測結果。
數學模型的概念
數學模型是一種通過數學方法描述和分析現實問題的工具。它可以將復雜的現實問題轉化為可描述和可分析的數學表達式,通過定量分析、簡化問題、預測和驗證等手段幫助人們更好地理解和解決問題。
❾ 如何判斷bp神經網路訓練有效性
1、你可以嘗試運行多次後比較其結果,最好重啟matlab,再運行你的神經網路程序。
2、確認一下你的bp神經網路參數設置是否合理。
3、也有可能的數據不適合用bp神經網路訓練,可以考慮其他方法。
❿ 怎麼去驗證神經網路的有效性
第一步:先看訓練數據的誤差,如果大,那肯定是不行。 若果你只仿鏈有一個輸出,可以畫圖看一下預測的結果和輸出的結果相差多少。
第二步:在訓練前一般會留20%的數據出來作檢驗。 如果在第一步中檢驗了訓練數據的預測結果不錯。,那麼接下來檢驗檢驗數嫌大稿據的預測結果如何,用檢驗數據作為輸入 , 看下預測芹孝出來的結果和實際的相多少。 如果OK,那就OK了, 恭喜,投入使用!
《神經網路之家》