① 有人可以介紹一下什麼是"神經網路"嗎
由於神經網路是多學科交叉的產物,各個相關的學科領域對神經網路
都有各自的看法,因此,關於神經網路的定義,在科學界存在許多不同的
見解。目前使用得最廣泛的是T.Koholen的定義,即"神經網路是由具有適
應性的簡單單元組成的廣泛並行互連的網路,它的組織能夠模擬生物神經
系統對真實世界物體所作出的交互反應。"
如果我們將人腦神經信息活動的特點與現行馮·諾依曼計算機的工作方
式進行比較,就可以看出人腦具有以下鮮明特徵:
1. 巨量並行性。
在馮·諾依曼機中,信息處理的方式是集中、串列的,即所有的程序指
令都必須調到CPU中後再一條一條地執行。而人在識別一幅圖像或作出一項
決策時,存在於腦中的多方面的知識和經驗會同時並發作用以迅速作出解答。
據研究,人腦中約有多達10^(10)~10^(11)數量級的神經元,每一個神經元
具有103數量級的連接,這就提供了巨大的存儲容量,在需要時能以很高的
反應速度作出判斷。
2. 信息處理和存儲單元結合在一起。
在馮·諾依曼機中,存儲內容和存儲地址是分開的,必須先找出存儲器的
地址,然後才能查出所存儲的內容。一旦存儲器發生了硬體故障,存儲器中
存儲的所有信息就都將受到毀壞。而人腦神經元既有信息處理能力又有存儲
功能,所以它在進行回憶時不僅不用先找存儲地址再調出所存內容,而且可
以由一部分內容恢復全部內容。當發生"硬體"故障(例如頭部受傷)時,並
不是所有存儲的信息都失效,而是僅有被損壞得最嚴重的那部分信息丟失。
3. 自組織自學習功能。
馮·諾依曼機沒有主動學習能力和自適應能力,它只能不折不扣地按照
人們已經編制好的程序步驟來進行相應的數值計算或邏輯計算。而人腦能夠
通過內部自組織、自學習的能力,不斷地適應外界環境,從而可以有效地處
理各種模擬的、模糊的或隨機的問題。
神經網路研究的主要發展過程大致可分為四個階段:
1. 第一階段是在五十年代中期之前。
西班牙解剖學家Cajal於十九世紀末創立了神經元學說,該學說認為神經
元的形狀呈兩極,其細胞體和樹突從其他神經元接受沖動,而軸索則將信號
向遠離細胞體的方向傳遞。在他之後發明的各種染色技術和微電極技術不斷
提供了有關神經元的主要特徵及其電學性質。
1943年,美國的心理學家W.S.McCulloch和數學家W.A.Pitts在論文《神經
活動中所蘊含思想的邏輯活動》中,提出了一個非常簡單的神經元模型,即
M-P模型。該模型將神經元當作一個功能邏輯器件來對待,從而開創了神經
網路模型的理論研究。
1949年,心理學家D.O. Hebb寫了一本題為《行為的組織》的書,在這本
書中他提出了神經元之間連接強度變化的規則,即後來所謂的Hebb學習法則。
Hebb寫道:"當神經細胞A的軸突足夠靠近細胞B並能使之興奮時,如果A重
復或持續地激發B,那麼這兩個細胞或其中一個細胞上必然有某種生長或代
謝過程上的變化,這種變化使A激活B的效率有所增加。"簡單地說,就是
如果兩個神經元都處於興奮狀態,那麼它們之間的突觸連接強度將會得到增
強。
五十年代初,生理學家Hodykin和數學家Huxley在研究神經細胞膜等效電
路時,將膜上離子的遷移變化分別等效為可變的Na+電阻和K+電阻,從而建
立了著名的Hodykin-Huxley方程。
這些先驅者的工作激發了許多學者從事這一領域的研究,從而為神經計
算的出現打下了基礎。
2. 第二階段從五十年代中期到六十年代末。
1958年,F.Rosenblatt等人研製出了歷史上第一個具有學習型神經網路
特點的模式識別裝置,即代號為Mark I的感知機(Perceptron),這一重
大事件是神經網路研究進入第二階段的標志。對於最簡單的沒有中間層的
感知機,Rosenblatt證明了一種學習演算法的收斂性,這種學習演算法通過迭代
地改變連接權來使網路執行預期的計算。
稍後於Rosenblatt,B.Widrow等人創造出了一種不同類型的會學習的神經
網路處理單元,即自適應線性元件Adaline,並且還為Adaline找出了一種有
力的學習規則,這個規則至今仍被廣泛應用。Widrow還建立了第一家神經計
算機硬體公司,並在六十年代中期實際生產商用神經計算機和神經計算機軟
件。
除Rosenblatt和Widrow外,在這個階段還有許多人在神經計算的結構和
實現思想方面作出了很大的貢獻。例如,K.Steinbuch研究了稱為學習矩陣
的一種二進制聯想網路結構及其硬體實現。N.Nilsson於1965年出版的
《機器學習》一書對這一時期的活動作了總結。
3. 第三階段從六十年代末到八十年代初。
第三階段開始的標志是1969年M.Minsky和S.Papert所著的《感知機》一書
的出版。該書對單層神經網路進行了深入分析,並且從數學上證明了這種網
絡功能有限,甚至不能解決象"異或"這樣的簡單邏輯運算問題。同時,他們
還發現有許多模式是不能用單層網路訓練的,而多層網路是否可行還很值得
懷疑。
由於M.Minsky在人工智慧領域中的巨大威望,他在論著中作出的悲觀結論
給當時神經網路沿感知機方向的研究潑了一盆冷水。在《感知機》一書出版
後,美國聯邦基金有15年之久沒有資助神經網路方面的研究工作,前蘇聯也
取消了幾項有前途的研究計劃。
但是,即使在這個低潮期里,仍有一些研究者繼續從事神經網路的研究工
作,如美國波士頓大學的S.Grossberg、芬蘭赫爾辛基技術大學的T.Kohonen
以及日本東京大學的甘利俊一等人。他們堅持不懈的工作為神經網路研究的
復興開辟了道路。
4. 第四階段從八十年代初至今。
1982年,美國加州理工學院的生物物理學家J.J.Hopfield採用全互連型
神經網路模型,利用所定義的計算能量函數,成功地求解了計算復雜度為
NP完全型的旅行商問題(Travelling Salesman Problem,簡稱TSP)。這
項突破性進展標志著神經網路方面的研究進入了第四階段,也是蓬勃發展
的階段。
Hopfield模型提出後,許多研究者力圖擴展該模型,使之更接近人腦的
功能特性。1983年,T.Sejnowski和G.Hinton提出了"隱單元"的概念,並且
研製出了Boltzmann機。日本的福島邦房在Rosenblatt的感知機的基礎上,
增加隱層單元,構造出了可以實現聯想學習的"認知機"。Kohonen應用3000
個閾器件構造神經網路實現了二維網路的聯想式學習功能。1986年,
D.Rumelhart和J.McClelland出版了具有轟動性的著作《並行分布處理-認知
微結構的探索》,該書的問世宣告神經網路的研究進入了高潮。
1987年,首屆國際神經網路大會在聖地亞哥召開,國際神經網路聯合會
(INNS)成立。隨後INNS創辦了刊物《Journal Neural Networks》,其他
專業雜志如《Neural Computation》,《IEEE Transactions on Neural
Networks》,《International Journal of Neural Systems》等也紛紛
問世。世界上許多著名大學相繼宣布成立神經計算研究所並制訂有關教育
計劃,許多國家也陸續成立了神經網路學會,並召開了多種地區性、國際性
會議,優秀論著、重大成果不斷涌現。
今天,在經過多年的准備與探索之後,神經網路的研究工作已進入了決
定性的階段。日本、美國及西歐各國均制訂了有關的研究規劃。
日本制訂了一個"人類前沿科學計劃"。這項計劃為期15-20年,僅
初期投資就超過了1萬億日元。在該計劃中,神經網路和腦功能的研究佔有
重要地位,因為所謂"人類前沿科學"首先指的就是有關人類大腦以及通過
借鑒人腦而研製新一代計算機的科學領域。
在美國,神經網路的研究得到了軍方的強有力的支持。美國國防部投資
4億美元,由國防部高級研究計劃局(DAPRA)制訂了一個8年研究計劃,
並成立了相應的組織和指導委員會。同時,海軍研究辦公室(ONR)、空軍
科研辦公室(AFOSR)等也紛紛投入巨額資金進行神經網路的研究。DARPA認
為神經網路"看來是解決機器智能的唯一希望",並認為"這是一項比原子彈
工程更重要的技術"。美國國家科學基金會(NSF)、國家航空航天局(NASA)
等政府機構對神經網路的發展也都非常重視,它們以不同的形式支持了眾多
的研究課題。
歐共體也制訂了相應的研究計劃。在其ESPRIT計劃中,就有一個項目是
"神經網路在歐洲工業中的應用",除了英、德兩國的原子能機構外,還有多
個歐洲大公司卷進這個研究項目,如英國航天航空公司、德國西門子公司等。
此外,西歐一些國家還有自己的研究計劃,如德國從1988年就開始進行一個
叫作"神經資訊理論"的研究計劃。
我國從1986年開始,先後召開了多次非正式的神經網路研討會。1990年
12月,由中國計算機學會、電子學會、人工智慧學會、自動化學會、通信學
會、物理學會、生物物理學會和心理學會等八個學會聯合在北京召開了"中
國神經網路首屆學術會議",從而開創了我國神經網路研究的新紀元。
② 神經網路從何而來
【嵌牛導讀】神經網路從何而來?這里說的『從何而來』,並不僅僅是從技術上去介紹一個方法的創造或發展,而更想探討方法背後所蘊含的思想基礎與演變之路。
【嵌牛鼻子】神經網路、深度學習
【嵌牛提問】神經網路的由來?
【嵌牛正文】深度學習與神經網路是近幾年來計算機與人工智慧領域最炙手可熱的話題了。為了蹭這波熱度,博主也打算分享一些自己的經驗與思考。第一篇文章想探討一個非常基礎的問題:神經網路從何而來?這里說的『從何而來』,並不僅僅是從技術上去介紹一個方法的創造或發展,而更想探討方法背後所蘊含的思想基礎與演變之路。
首先,需要為『神經網路』正一下名。在人工智慧領域,我們通常所說的神經網路(Neural Networks)全稱是人工神經網路(Artificial Neural Network),與之對應的是我們用肉長成的生物神經網路(Biology Neural Network)。眾所周知,人工神經網路受生物神經網路的啟發而產生,並在幾十年間不斷進步演化。可要論人類對人工智慧的探索歷史,卻遠遠長於這幾十年。為了深刻了解神經網路出現的背景,我們有必要從更早的歷史開始說起。
簡單說,人工智慧想做的事情就是去總結和提煉人類思考的過程,使之能夠機械化、可重復。從各種神話、傳說來看,我們的祖先在幾千年前就對這件事兒充滿了好奇與遐想。到兩千多年前,一大批偉大的哲學家在希臘、中國和印度相繼誕生,並將人類對這一問題的認識推向了新的高度。為避免本文成為枯燥的哲學史,這里不想舉太多的例子。偉大的希臘哲學家亞里士多德在他的《前分析篇》中提出了著名的三段論(sollygism),類似於:
所有希臘人是人
所有人終有一死
因此所有希臘人終有一死
雖然這是我們現在已經無比熟悉的推理模式,但是要在2000年前從無到有系統總結出一系列這樣的命題與推理模式,卻著實不易。有了『三段論』這種的武器,人們對問題的認識與決策就能從感性真正走向理性,做到可以重復。此外,我們熟悉的歐式幾何也是當時這種邏輯推理學派的代表。歐式幾何以一系列的公理為基礎,基於一套嚴密的邏輯推理體系,最終得到結論的證明,現在仍然是每個學生需要反復訓練的思維體操。
隨著時間的演進,認知哲學與邏輯學也在不斷的發展。在17世紀時,以笛卡爾、萊布尼茨為代表的哲學家進一步提出通過數學的方式對邏輯推演進行標准化,這也是對人腦推理與思考的再次抽象,為後續以後基於數字電路的人工智慧打下了基礎。之後,數理邏輯進一步發展,而到了20世紀中期,數理邏輯又一次取得了巨大的突破,哥德爾不完備理論、圖靈機模型等的相繼提出,科學家們既認識到了數理邏輯的局限性,也看到了將推理機械化的無限可能性,一種新的計算方式呼之欲出。
在圖靈機的思想指導下,第一台電子計算機很快被設計出來,為人工智慧的真正實現提供了物質上的基礎。其實回望人工智慧歷史上的歷次重大飛躍,硬體技術的發展無不扮演者重要的作用。很多看似有效的演算法都苦於沒有足夠強大的計算平台支持無疾而終,而計算能力的提升也可以促進科學家們們擺脫束縛,在演算法的研究道路上天馬行空。深度學習這些年的迅猛發展,很大程度就是得益於大規模集群和圖形處理器等技術的成熟,使得用復雜模型快速處理大規模數據成為可能。
1956年達特茅斯會議上,斯坦福大學科學家約翰·麥卡錫(John McCarthy)正式提出了『人工智慧』這一概念, 標志著一個學科的正式誕生,也標志著人工智慧的發展開始進入了快車道。如果說邏輯符號操作是對人類思維的本質的抽象,那麼利用電子計算機技術來模擬人類的符號推理計算也是一個自然而然的想法。在艾倫·紐威爾(Alan Newell)和赫伯特·西蒙(Herbert A.Simon)等大師的推動下,以邏輯推演為核心符號主義(symbolicism)流派很快占據了人工智慧領域的重要地位。符號主義在很多領域取得了成功,比如在80年代風靡一時的專家系統,通過知識庫和基於知識庫的推理系統模擬專家進行決策,得到了廣泛的應用。而本世紀初熱炒的語義網路以及當下最流行的知識圖譜,也可以看做這一流派的延續與發展。
符號主義最大的特點是知識的表示直觀,推理的過程清晰,但是也存在著許多局限性。除去在計算能力方面的困擾,一個很大的問題就在於雖然我們可以通過邏輯推理解決一些復雜的問題,但是對一些看似簡單的問題,比如人臉識別,卻無能為力。當看到一張人臉的照片,我們可以毫不費力的識別出這個人是誰,可這個過程並不需要做什麼復雜的推理,它在我們的大腦中瞬間完成,以至於我們對這個過程的細節卻一無所知。看起來想通過挖掘一系列嚴密的推理規則解決這類問題是相對困難的,這也促使很多人去探索與人腦工作更加貼合的解決方案。實際上在符號主義出現的同時,人工智慧的另一重要學派聯結主義(Connectionism)也開始蓬勃發展,本文的『主角』神經網路終於可以登場了。
在文章的一開始就提到,我們現在所說的人工神經網路是受生物神經網路啟發而設計出來的。在1890年,實驗心理學先驅William James在他的巨著《心理學原理》中第一次詳細論述人腦結構及功能。其中提到神經細胞受到刺激激活後可以把刺激傳播到另一個神經細胞,並且神經細胞激活是細胞所有輸入疊加的結果。這一後來得到驗證的假說也成為了人工神經網路設計的生物學基礎。基於這一假說,一系列模擬人腦神經計算的模型被相繼提出,具有代表性的有Hebbian Learning Rule, Oja's Rule和MCP Neural Model等,他們與現在通用的神經網路模型已經非常相似,例如在Hebbian Learning模型中,已經可以支持神經元之間權重的自動學習。而在1958年,Rosenblatt將這些模型付諸於實施,利用電子設備構建了真正意義上的第一個神經網路模型:感知機(Perceptron)。Rosenblatt現場演示了其學習識別簡單圖像的過程,在當時的社會引起了轟動,並帶來了神經網路的第一次大繁榮。此後的幾十年裡,神經網路又經歷了數次起起伏伏,既有春風得意一統天下的歲月,也有被打入冷宮無人問津的日子,當然,這些都是後話了。
本文更想討論這樣一個問題:神經網路產生的動機僅僅是對生物學中對神經機制的模仿嗎?在神經網路產生的背後,還蘊含著一代代科學家怎麼樣的思想與情懷呢?事實上,在神經網路為代表的一類方法在人工智慧中又被稱為聯結主義(Connectionism)。關於聯結主義的歷史,一般的文獻介紹按照慣例會追溯到希臘時期哲學家們對關聯性的定義與研究,例如我們的老朋友亞里士多德等等。然而當時哲學家研究的關聯其實並不特指神經元之間的這種關聯,比如前文提到的符號推理本身也是一種形式關聯,在希臘哲學中並沒有對這兩者進行專門的區分。所以硬要把這些說成是連接主義的思想起源略微有一些牽強。
前文提到,在數理邏輯發展過程中,17世紀的歐陸理性主義起到了重要的作用。以笛卡爾、萊布尼茨等為代表的哲學家,主張在理性中存在著天賦觀念,以此為原則並嚴格按照邏輯必然性進行推理就可以得到普遍必然的知識。與此同時,以洛克、休謨等哲學家為代表的英國經驗主義,則強調人類的知識來自於對感知和經驗歸納。這一定程度上是對絕對的真理的一種否定,人類的認識是存在主觀的,隨經驗而變化的部分的。如果在這個思想的指導下,我們與其去尋找一套普世且完備的推理系統,不如去構造一套雖不完美但能夠隨著經驗積累不斷完善的學習系統。而休謨甚至提出了放棄揭示自然界的因果聯系和必然規律,而是依據「習慣性聯想」去描繪一連串的感覺印象。這其實和神經網路設計的初衷是非常類似的:重視經驗的獲得與歸納(通過樣本進行學習),但對模型本身的嚴謹性與可解釋行則沒有那麼關注,正如有時候我們願意把神經網路模型看做是一個『黑箱』。
然而單單一個『黑箱』是不能成為經驗的學習與整理的系統的,我們還需要去尋找構建『黑箱』的一種方法論。現代哲學發展到20世紀初期時,在維特根斯坦和羅素等哲學家的倡導下,產生了邏輯經驗主義學派。依託當時邏輯學的迅猛發展,這一主義既強調經驗的作用,也重視通過嚴密的邏輯推理來得到結論,而非簡單的歸納。在數理邏輯領域頗有建樹的羅素有一位大名鼎鼎的學生諾伯特·維納,他創立的控制論與系統論、資訊理論一道,為信息科學的發展提供了堅實的理論基礎。而神經網路模型的創立也深受這『三論』的影響。前文提到MCP神經元模型的兩位創始人分別是羅素和維納的學生。作為一個系統,神經網路接受外部的輸入,得到輸出,並根據環境進行反饋,對系統進行更新,直到達到穩定狀態。這個過程,同樣也是神經網路對環境信息傳遞的接受和重新編碼的過程。如果如果把神經網路當做一個『黑盒』,那麼我們首先關心該是這個黑盒的輸入與輸出,以及如何根據環境給黑盒一個合理的反饋,使之能夠進行調整。而黑盒內部的結構,則更多的成為了形式的問題。我們借鑒生物神經網路構造這個黑盒,恰好是一個好的解決方案,但這未必是唯一的解決方案或者說與人類大腦的神經元結構存在必然的聯系。比如在統計學習領域中最著名的支持向量機(Support Vector Machines),最終是作為一種特殊的神經網路而提出的。可當其羽翼豐滿之後,則和神經網路逐漸脫離關系,開啟了機器學習的另一個門派。不同的模型形式之間可以互相轉化,但是重視經驗(樣本),強調反饋的思想卻一直保留下來。
前面說了這些,到底神經網路從何而來呢?總結下來就是三個方面吧:1.對理性邏輯的追求,對樣本實證的重視,為神經網路的誕生提供了思想的基礎。2.生物學與神經科學的發展為神經網路形式的出現提供了啟發。3.計算機硬體的發展與計算能力的提升使神經網路從理想變成了現實。而這三方面的發展也催生著神經網路的進一步發展與深度學習的成熟:更大規模的數據,更完善的優化演算法使網路能夠學習到更多更准確的信息;對人腦的認識的提升啟發設計出層次更深,結構更高效的網路結構;硬體存儲與計算能力提升使海量數據的高效訓練成為可能。而未來神經網路給我們帶來的更多驚喜,也很大可能源自於這三個方面,讓我們不妨多一些期待吧。
③ BP神經網路的發展歷史
人工神經網路早期的研究工作應追溯至上世紀40年代。下面以時間順序,以著名的人物或某一方面突出的研究成果為線索,簡要介紹人工神經網路的發展歷史。
1943年,心理學家W·Mcculloch和數理邏輯學家W·Pitts在分析、總結神經元基本特性的基礎上首先提出神經元的數學模型。此模型沿用至今,並且直接影響著這一領域研究的進展。因而,他們兩人可稱為人工神經網路研究的先驅。
1945年馮·諾依曼領導的設計小組試製成功存儲程序式電子計算機,標志著電子計算機時代的開始。1948年,他在研究工作中比較了人腦結構與存儲程序式計算機的根本區別,提出了以簡單神經元構成的再生自動機網路結構。但是,由於指令存儲式計算機技術的發展非常迅速,迫使他放棄了神經網路研究的新途徑,繼續投身於指令存儲式計算機技術的研究,並在此領域作出了巨大貢獻。雖然,馮·諾依曼的名字是與普通計算機聯系在一起的,但他也是人工神經網路研究的先驅之一。
50年代末,F·Rosenblatt設計製作了「感知機」,它是一種多層的神經網路。這項工作首次把人工神經網路的研究從理論探討付諸工程實踐。當時,世界上許多實驗室仿效製作感知機,分別應用於文字識別、聲音識別、聲納信號識別以及純激學習記憶問題的研究。然而,這次人工神經網路的研究高潮未能持續很久,許多人陸續放棄了這方面的研究工作,這是因為當時數字計算機的發展處於全盛時期,許多人誤以為數字計算機可以解決人工智慧、模式識別、專家系統等方面的一切問題,使感知機的工作得不到重視;其次,當時的電子技術工藝水平比較落後,主要的元件是電子管或晶體管,利用它們製作的神經網路體積龐大,價格昂貴,要製作在規模上與真實的神經網路相似是完全不可能的;另外,在1968年一本名為《感知機》的著作中指出線性感知機功能是有限的,它不能解決如異或這樣的基本問題,而且多層網路還不能找到有效的計算方法,這些論點促使大批研究人員對於人工神經網路的前景失去信心。60年代末期,人工神經網路的研究進入了低潮。
另外,在60年代初期,Widrow提出了自適應線性元件網路,這是一種連續取值的線性加權求和閾值網路。後來,在此基礎上發展了非線性多層自適應網路。當時,這些工作雖未標出神經網路的名稱,而實際上就是一種人工神經網路模型。
隨著人們對感知機興趣的衰退,神經網路的研究沉寂了相當長的時間。80年代初期,模擬與數字混合的超大規模集成電路製作技術提高到新的水平,完全付諸實用化,此外,數字計算機的發展在若干應用領域遇到困難。這一背景預示,向人工神經網路尋求出路的時機已經成熟。美國的物理學家Hopfield於1982年和1984年在美國科學院院刊上發表了兩肆胡篇關於人工神做雹襪經網路研究的論文,引起了巨大的反響。人們重新認識到神經網路的威力以及付諸應用的現實性。隨即,一大批學者和研究人員圍繞著 Hopfield提出的方法展開了進一步的工作,形成了80年代中期以來人工神經網路的研究熱潮。
④ 神經網路的歷史是什麼
沃倫·麥卡洛克和沃爾特·皮茨(1943)基於數學和一種稱為閾值邏輯的演算法創造了一種神經網路的計算模型。這種模型使得神經網路的研究分裂為兩種不同研究思路。一種主要關注大腦中的生物學過程,另一種主要關注神經網路在人工智慧里的應用。
一、赫布型學習
二十世紀40年代後期,心理學家唐納德·赫布根據神經可塑性的機制創造了一種對學習的假說,現在稱作赫布型學習。赫布型學習被認為是一種典型的非監督式學習規則,它後來的變種是長期增強作用的早期模型。從1948年開始,研究人員將這種計算模型的思想應用到B型圖靈機上。
法利和韋斯利·A·克拉克(1954)首次使用計算機,當時稱作計算器,在MIT模擬了一個赫布網路。納撒尼爾·羅切斯特(1956)等人模擬了一台 IBM 704計算機上的抽象神經網路的行為。
弗蘭克·羅森布拉特創造了感知機。這是一種模式識別演算法,用簡單的加減法實現了兩層的計算機學習網路。羅森布拉特也用數學符號描述了基本感知機里沒有的迴路,例如異或迴路。這種迴路一直無法被神經網路處理,直到保羅·韋伯斯(1975)創造了反向傳播演算法。
在馬文·明斯基和西摩爾·派普特(1969)發表了一項關於機器學習的研究以後,神經網路的研究停滯不前。他們發現了神經網路的兩個關鍵問題。
第一是基本感知機無法處理異或迴路。第二個重要的問題是電腦沒有足夠的能力來處理大型神經網路所需要的很長的計算時間。直到計算機具有更強的計算能力之前,神經網路的研究進展緩慢。
二、反向傳播演算法與復興
後來出現的一個關鍵的進展是保羅·韋伯斯發明的反向傳播演算法(Werbos 1975)。這個演算法有效地解決了異或的問題,還有更普遍的訓練多層神經網路的問題。
在二十世紀80年代中期,分布式並行處理(當時稱作聯結主義)流行起來。戴維·魯姆哈特和詹姆斯·麥克里蘭德的教材對於聯結主義在計算機模擬神經活動中的應用提供了全面的論述。
神經網路傳統上被認為是大腦中的神經活動的簡化模型,雖然這個模型和大腦的生理結構之間的關聯存在爭議。人們不清楚人工神經網路能多大程度地反映大腦的功能。
支持向量機和其他更簡單的方法(例如線性分類器)在機器學習領域的流行度逐漸超過了神經網路,但是在2000年代後期出現的深度學習重新激發了人們對神經網路的興趣。
三、2006年之後的進展
人們用CMOS創造了用於生物物理模擬和神經形態計算的計算設備。最新的研究顯示了用於大型主成分分析和卷積神經網路的納米設備具有良好的前景。
如果成功的話,這會創造出一種新的神經計算設備,因為它依賴於學習而不是編程,並且它從根本上就是模擬的而不是數字化的,雖然它的第一個實例可能是數字化的CMOS設備。
在2009到2012年之間,Jürgen Schmidhuber在Swiss AI Lab IDSIA的研究小組研發的循環神經網路和深前饋神經網路贏得了8項關於模式識別和機器學習的國際比賽。
例如,Alex Graves et al.的雙向、多維的LSTM贏得了2009年ICDAR的3項關於連筆字識別的比賽,而且之前並不知道關於將要學習的3種語言的信息。
IDSIA的Dan Ciresan和同事根據這個方法編寫的基於GPU的實現贏得了多項模式識別的比賽,包括IJCNN 2011交通標志識別比賽等等。
他們的神經網路也是第一個在重要的基準測試中(例如IJCNN 2012交通標志識別和NYU的揚·勒丘恩(Yann LeCun)的MNIST手寫數字問題)能達到或超過人類水平的人工模式識別器。
類似1980年Kunihiko Fukushima發明的neocognitron和視覺標准結構(由David H. Hubel和Torsten Wiesel在初級視皮層中發現的那些簡單而又復雜的細胞啟發)那樣有深度的、高度非線性的神經結構可以被多倫多大學傑弗里·辛頓實驗室的非監督式學習方法所訓練。
2012年,神經網路出現了快速的發展,主要原因在於計算技術的提高,使得很多復雜的運算變得成本低廉。以AlexNet為標志,大量的深度網路開始出現。
2014年出現了殘差神經網路,該網路極大解放了神經網路的深度限制,出現了深度學習的概念。
構成
典型的人工神經網路具有以下三個部分:
1、結構(Architecture)結構指定了網路中的變數和它們的拓撲關系。例如,神經網路中的變數可以是神經元連接的權重(weights)和神經元的激勵值(activities of the neurons)。
2、激勵函數(Activation Rule)大部分神經網路模型具有一個短時間尺度的動力學規則,來定義神經元如何根據其他神經元的活動來改變自己的激勵值。一般激勵函數依賴於網路中的權重(即該網路的參數)。
3、學習規則(Learning Rule)學習規則指定了網路中的權重如何隨著時間推進而調整。這一般被看做是一種長時間尺度的動力學規則。一般情況下,學習規則依賴於神經元的激勵值。它也可能依賴於監督者提供的目標值和當前權重的值。
例如,用於手寫識別的一個神經網路,有一組輸入神經元。輸入神經元會被輸入圖像的數據所激發。在激勵值被加權並通過一個函數(由網路的設計者確定)後,這些神經元的激勵值被傳遞到其他神經元。
這個過程不斷重復,直到輸出神經元被激發。最後,輸出神經元的激勵值決定了識別出來的是哪個字母。
⑤ 人工神經網路的發展
現代意義上對神經網路(特指人工神經網路)的研究一般認為從1943年美國芝加哥大學的生理學家W.S. McCulloch和W.A. Pitts提出M-P神經元模型開始,到今年正好六十年。在這六十年中,神經網路的發展走過了一段曲折的道路。1965年M. Minsky和S. Papert在《感知機》一書中指出感知機的缺陷並表示出對這方面研究的悲觀態度,使得神經網路的研究從興起期進入了停滯期,這是神經網路發展史上的第一個轉折。到了20世紀80年代初,J.J. Hopfield的工作和D. Rumelhart等人的PDP報告顯示出神經網路的巨大潛力,使得該領域的研究從停滯期進入了繁榮期,這是神經網路發展史上的第二個轉折。
到了20世紀90年代中後期,隨著研究者們對神經網路的局限有了更清楚的認識,以及支持向量機等似乎更有前途的方法的出現,「神經網路」這個詞不再象前些年那麼「火爆」了。很多人認為神經網路的研究又開始陷入了低潮,並認為支持向量機將取代神經網路。有趣的是,著名學者C.-J. Lin於2003年1月在德國馬克斯·普朗克研究所所做的報告中說,支持向量機雖然是一個非常熱門的話題,但目前最主流的分類工具仍然是決策樹和神經網路。由著名的支持向量機研究者說出這番話,顯然有一種特殊的意味。
事實上,目前神經網路的境遇與1965年之後真正的低潮期相比有明顯的不同。在1965年之後的很長一段時期里,美國和前蘇聯沒有資助任何一項神經網路的研究課題,而今天世界各國對神經網路的研究仍然有大量的經費支持;1965年之後90%以上的神經網路研究者改變了研究方向,而今天無論是國際還是國內都有一支相對穩定的研究隊伍。實際上,神經網路在1965年之後陷入低潮是因為當時該領域的研究在一定意義上遭到了否定,而今天的相對平靜是因為該領域已經走向成熟,很多技術開始走進生產和生活,從而造成了原有研究空間的縮小。
在科學研究中通常有這么一個現象,當某個領域的論文大量涌現的時候,往往正是該領域很不成熟、研究空間很大的時候,而且由於這時候人們對該領域研究的局限缺乏清楚的認識,其熱情往往具有很大的盲目性。從這個意義上說,過去若干年裡各領域研究者一擁而上、各種專業刊物滿眼「神經網路」的風光,其實是一種畸形繁榮的景象,而對神經網路的研究現在才進入了一個比較理智、正常的發展期。在這段時期中,通過對以往研究中存在的問題和局限進行反思,並適當借鑒相關領域的研究進展,將可望開拓新的研究空間,為該領域的進一步發展奠定基礎。
⑥ 神經網路簡述
機器學習中談論的神經網路是指「神經網路學習」,或者說,是機器學習和神經網路這兩個學科領域的交叉部分[1]。
在這里,神經網路更多的是指計算機科學家模擬人類大腦結構和智能行為,發明的一類演算法的統稱。
神經網路是眾多優秀仿生演算法中的一種,讀書時曾接觸過蟻群優化演算法,曾驚訝於其強大之處,但神經網路的強大,顯然蟻群優化還不能望其項背。
A、起源與第一次高潮。有人認為,神經網路的最早討論,源於現代計算機科學的先驅——阿蘭.圖靈在1948年的論文中描述的「B型組織機器」[2]。二十世紀50年代出現了以感知機、Adaling為代表的一系列成功,這是神經網路發展的第一個高潮[1]。
B、第一次低谷。1969年,馬文.明斯基出版《感知機》一書,書中論斷直接將神經網路打入冷宮,導致神經網路十多年的「冰河期」。值得一提的是,在這期間的1974年,哈佛大學Paul Webos發明BP演算法,但當時未受到應有的重視[1]。
C、第二次高潮。1983年,加州理工學院的物理學家John Hopfield利用神經網路,在旅行商問題上獲得當時最好結果,引起轟動;Rumelhart等人重新發明了BP演算法,BP演算法迅速走紅,掀起神經網路第二次高潮[1]。
D、第二次低谷。二十世紀90年代中期,統計學習理論和支持向量機興起,較之於這些演算法,神經網路的理論基礎不清晰等缺點更加凸顯,神經網路研究進入第二次低谷[1]。
E、深度學習的崛起。2010年前後,隨著計算能力的提升和大數據的涌現,以神經網路為基礎的「深度學習」崛起,科技巨頭公司谷歌、Facebook、網路投入巨資研發,神經網路迎來第三次高潮[1]。2016年3月9日至15日,Google人工智慧程序AlphaGo對陣韓國圍棋世界冠軍李世乭,以4:1大比分獲勝,比眾多專家預言早了十年。這次比賽,迅速在全世界經濟、科研、計算機產業各領域掀起人工智慧和深度學習的熱烈討論。
F、展望。從幾個方面討論一下。
1)、近期在Google AlphaGo掀起的熱潮中,民眾的熱情與期待最大,甚至有少許恐慌情緒;計算機產業和互聯網產業熱情也非常巨大,對未來充滿期待,各大巨頭公司對其投入大量資源;學術界的反應倒是比較冷靜的。學術界的冷靜,是因為神經網路和深度神經網路的理論基礎還沒有出現長足的進步,其缺點還沒有根本改善。這也從另一個角度說明了深度神經網路理論進步的空間很大。
2)、"當代神經網路是基於我們上世紀六十年代掌握的腦知識。"關於人類大腦的科學與知識正在爆炸式增長。[3]世界上很多學術團隊正在基於大腦機制新的認知建立新的模型[3]。我個人對此報樂觀態度,從以往的仿生演算法來看,經過億萬年進化的自然界對科技發展的促進從來沒有停止過。
3)、還說AlphaGo,它並不是理論和演算法的突破,而是基於已有演算法的工程精品。AlhphaGo的工作,為深度學習的應用提供了非常廣闊的想像空間。分布式技術提供了巨大而廉價的計算能力,巨量數據的積累提供了豐富的訓練樣本,深度學習開始騰飛,這才剛剛開始。
一直沿用至今的,是McChlloch和Pitts在1943年依據腦神經信號傳輸結構抽象出的簡單模型,所以也被稱作」M-P神經元模型「。
其中,
f函數像一般形如下圖的函數,既考慮階躍性,又考慮光滑可導性。
實際常用如下公式,因形如S,故被稱作sigmoid函數。
把很多個這樣的神經元按一定層次連接起來,就得到了神經網路。
兩層神經元組成,輸入層接收外界輸入信號,輸出層是M-P神經元(只有輸出層是)。
感知機的數學模型和單個M-P神經元的數學模型是一樣的,如因為輸入層只需接收輸入信號,不是M-P神經元。
感知機只有輸出層神經元是B-P神經元,學習能力非常有限。對於現行可分問題,可以證明學習過程一定會收斂。而對於非線性問題,感知機是無能為力的。
BP神經網路全稱叫作誤差逆傳播(Error Propagation)神經網路,一般是指基於誤差逆傳播演算法的多層前饋神經網路。這里為了不佔篇幅,BP神經網路將起篇另述。
BP演算法是迄今最為成功的神經網路學習演算法,也是最有代表性的神經網路學習演算法。BP演算法不僅用於多層前饋神經網路,還用於其他類型神經網路的訓練。
RBF網路全程徑向基函數(Radial Basis Function)網路,是一種單隱層前饋神經網路,其與BP網路最大的不同是採用徑向基函數作為隱層神經元激活函數。
卷積神經網路(Convolutional neural networks,簡稱CNNs)是一種深度學習的前饋神經網路,在大型圖片處理中取得巨大成功。卷積神經網路將起篇另述。
循環神經網路(Recurrent Neural Networks,RNNs)與傳統的FNNs不同,RNNs引入定向循環,能夠處理那些輸入之間前後關聯的問題。RNNs已經在眾多自然語言處理(Natural Language Processing, NLP)中取得了巨大成功以及廣泛應用[5]。RNNs將起篇另述。[5]
[1]、《機器學習》,周志華著
[2]、《模式識別(第二版)》,Richard O.Duda等著,李宏東等譯
[3]、《揭秘IARPA項目:解碼大腦演算法或將徹底改變機器學習》,Emily Singerz著,機器之心編譯出品
[4]、圖片來源於互聯網
[5]、 循環神經網路(RNN, Recurrent Neural Networks)介紹