① 深度學習與神經網路有什麼區別
深度學習與神經網路關系
2017-01-10
最近開始學習深度學習,基本上都是zouxy09博主的文章,寫的蠻好,很全面,也會根據自己的思路,做下刪減,細化。
五、Deep Learning的基本思想
假設我們有一個系統S,它有n層(S1,…Sn),它的輸入是I,輸出是O,形象地表示為: I =>S1=>S2=>…..=>Sn => O,如果輸出O等於輸入I,即輸入I經過這個系統變化之後沒有任何的信息損失(呵呵,大牛說,這是不可能的。資訊理論中有個「信息逐層丟失」的說法(信息處理不等式),設處理a信息得到b,再對b處理得到c,那麼可以證明:a和c的互信息不會超過a和b的互信息。這表明信息處理不會增加信息,大部分處理會丟失信息。當然了,如果丟掉的是沒用的信息那多好啊),保持了不變,這意味著輸入I經過每一層Si都沒有任何的信息損失,即在任何一層Si,它都是原有信息(即輸入I)的另外一種表示。現在回到我們的主題Deep Learning,我們需要自動地學習特徵,假設我們有一堆輸入I(如一堆圖像或者文本),假設我們設計了一個系統S(有n層),我們通過調整系統中參數,使得它的輸出仍然是輸入I,那麼我們就可以自動地獲取得到輸入I的一系列層次特徵,即S1,…, Sn。
對於深度學習來說,其思想就是對堆疊多個層,也就是說這一層的輸出作為下一層的輸入。通過這種方式,就可以實現對輸入信息進行分級表達了。
另外,前面是假設輸出嚴格地等於輸入,這個限制太嚴格,我們可以略微地放鬆這個限制,例如我們只要使得輸入與輸出的差別盡可能地小即可,這個放鬆會導致另外一類不同的Deep Learning方法。上述就是Deep Learning的基本思想。
六、淺層學習(Shallow Learning)和深度學習(Deep Learning)
淺層學習是機器學習的第一次浪潮。
20世紀80年代末期,用於人工神經網路的反向傳播演算法(也叫Back Propagation演算法或者BP演算法)的發明,給機器學習帶來了希望,掀起了基於統計模型的機器學習熱潮。這個熱潮一直持續到今天。人們發現,利用BP演算法可以讓一個人工神經網路模型從大量訓練樣本中學習統計規律,從而對未知事件做預測。這種基於統計的機器學習方法比起過去基於人工規則的系統,在很多方面顯出優越性。這個時候的人工神經網路,雖也被稱作多層感知機(Multi-layer Perceptron),但實際是種只含有一層隱層節點的淺層模型。
20世紀90年代,各種各樣的淺層機器學習模型相繼被提出,例如支撐向量機(SVM,Support Vector Machines)、 Boosting、最大熵方法(如LR,Logistic Regression)等。這些模型的結構基本上可以看成帶有一層隱層節點(如SVM、Boosting),或沒有隱層節點(如LR)。這些模型無論是在理論分析還是應用中都獲得了巨大的成功。相比之下,由於理論分析的難度大,訓練方法又需要很多經驗和技巧,這個時期淺層人工神經網路反而相對沉寂。
深度學習是機器學習的第二次浪潮。
2006年,加拿大多倫多大學教授、機器學習領域的泰斗Geoffrey Hinton和他的學生RuslanSalakhutdinov在《科學》上發表了一篇文章,開啟了深度學習在學術界和工業界的浪潮。這篇文章有兩個主要觀點:1)多隱層的人工神經網路具有優異的特徵學習能力,學習得到的特徵對數據有更本質的刻畫,從而有利於可視化或分類;2)深度神經網路在訓練上的難度,可以通過「逐層初始化」(layer-wise pre-training)來有效克服,在這篇文章中,逐層初始化是通過無監督學習實現的。
當前多數分類、回歸等學習方法為淺層結構演算法,其局限性在於有限樣本和計算單元情況下對復雜函數的表示能力有限,針對復雜分類問題其泛化能力受到一定製約。深度學習可通過學習一種深層非線性網路結構,實現復雜函數逼近,表徵輸入數據分布式表示,並展現了強大的從少數樣本集中學習數據集本質特徵的能力。(多層的好處是可以用較少的參數表示復雜的函數)
而為了克服神經網路訓練中的問題,DL採用了與神經網路很不同的訓練機制。傳統神經網路(這里作者主要指前向神經網路)中,採用的是back propagation的方式進行,簡單來講就是採用迭代的演算法來訓練整個網路,隨機設定初值,計算當前網路的輸出,然後根據當前輸出和label之間的差去改變前面各層的參數,直到收斂(整體是一個梯度下降法)。而deep learning整體上是一個layer-wise的訓練機制。這樣做的原因是因為,如果採用back propagation的機制,對於一個deep network(7層以上),殘差傳播到最前面的層已經變得太小,出現所謂的gradient diffusion(梯度擴散)。這個問題我們接下來討論。
八、Deep learning訓練過程
8.1、傳統神經網路的訓練方法為什麼不能用在深度神經網路
BP演算法作為傳統訓練多層網路的典型演算法,實際上對僅含幾層網路,該訓練方法就已經很不理想。深度結構(涉及多個非線性處理單元層)非凸目標代價函數中普遍存在的局部最小是訓練困難的主要來源。
BP演算法存在的問題:
(1)梯度越來越稀疏:從頂層越往下,誤差校正信號越來越小;
(2)收斂到局部最小值:尤其是從遠離最優區域開始的時候(隨機值初始化會導致這種情況的發生);
(3)一般,我們只能用有標簽的數據來訓練:但大部分的數據是沒標簽的,而大腦可以從沒有標簽的的數據中學習;
8.2、deep learning訓練過程
如果對所有層同時訓練,時間復雜度會太高;如果每次訓練一層,偏差就會逐層傳遞。這會面臨跟上面監督學習中相反的問題,會嚴重欠擬合(因為深度網路的神經元和參數太多了)。
2006年,hinton提出了在非監督數據上建立多層神經網路的一個有效方法,簡單的說,分為兩步,一是每次訓練一層網路,二是調優,使原始表示x向上生成的高級表示r和該高級表示r向下生成的x'盡可能一致。方法是:
1)首先逐層構建單層神經元,這樣每次都是訓練一個單層網路。
2)當所有層訓練完後,Hinton使用wake-sleep演算法進行調優。
將除最頂層的其它層間的權重變為雙向的,這樣最頂層仍然是一個單層神經網路,而其它層則變為了圖模型。向上的權重用於「認知」,向下的權重用於「生成」。然後使用Wake-Sleep演算法調整所有的權重。讓認知和生成達成一致,也就是保證生成的最頂層表示能夠盡可能正確的復原底層的結點。比如頂層的一個結點表示人臉,那麼所有人臉的圖像應該激活這個結點,並且這個結果向下生成的圖像應該能夠表現為一個大概的人臉圖像。Wake-Sleep演算法分為醒(wake)和睡(sleep)兩個部分。
1)wake階段:認知過程,通過外界的特徵和向上的權重(認知權重)產生每一層的抽象表示(結點狀態),並且使用梯度下降修改層間的下行權重(生成權重)。也就是「如果現實跟我想像的不一樣,改變我的權重使得我想像的東西就是這樣的」。
2)sleep階段:生成過程,通過頂層表示(醒時學得的概念)和向下權重,生成底層的狀態,同時修改層間向上的權重。也就是「如果夢中的景象不是我腦中的相應概念,改變我的認知權重使得這種景象在我看來就是這個概念」。
deep learning訓練過程具體如下:
1)使用自下上升非監督學習(就是從底層開始,一層一層的往頂層訓練):
採用無標定數據(有標定數據也可)分層訓練各層參數,這一步可以看作是一個無監督訓練過程,是和傳統神經網路區別最大的部分(這個過程可以看作是feature learning過程):
具體的,先用無標定數據訓練第一層,訓練時先學習第一層的參數(這一層可以看作是得到一個使得輸出和輸入差別最小的三層神經網路的隱層),由於模型capacity的限制以及稀疏性約束,使得得到的模型能夠學習到數據本身的結構,從而得到比輸入更具有表示能力的特徵;在學習得到第n-1層後,將n-1層的輸出作為第n層的輸入,訓練第n層,由此分別得到各層的參數;
2)自頂向下的監督學習(就是通過帶標簽的數據去訓練,誤差自頂向下傳輸,對網路進行微調):
基於第一步得到的各層參數進一步fine-tune整個多層模型的參數,這一步是一個有監督訓練過程;第一步類似神經網路的隨機初始化初值過程,由於DL的第一步不是隨機初始化,而是通過學習輸入數據的結構得到的,因而這個初值更接近全局最優,從而能夠取得更好的效果;所以deep learning效果好很大程度上歸功於第一步的feature learning過程。
② 人們的大腦結構都一樣嗎哪種結構的大腦聰明
說聰明人大腦有結構比較正確,實際上大腦是一樣的,神經系統的靈活性不一樣,大腦配合高靈活性的神經系統才能有超強的記憶能力、思維能力、理解能力、創造能力,這個高靈活性神經系統來源於小時候,中途不能改變,也就是聰明人從小到老都是聰明。
③ 有什麼神經網路結構圖的畫圖工具值得推薦嗎
用VISIO和office powerpoint
④ 神經網路與機器學習和神經網路原理,哪本比較更好一些
神經網路的基礎是逼近技術,學好逼近理論後,基本上神經網路只是在結構上進行了整理,實際使用中使用簡化。
⑤ 神經網路優缺點,
優點:
(1)具有自學習功能。例如實現圖像識別時,只在先把許多不同的圖像樣板和對應的應識別的結果輸入人工神經網路,網路就會通過自學習功能,慢慢學會識別類似的圖像。
自學習功能對於預測有特別重要的意義。預期未來的人工神經網路計算機將為人類提供經濟預測、市場預測、效益預測,其應用前途是很遠大的。
(2)具有聯想存儲功能。用人工神經網路的反饋網路就可以實現這種聯想。
(3)具有高速尋找優化解的能力。尋找一個復雜問題的優化解,往往需要很大的計算量,利用一個針對某問題而設計的反饋型人工神經網路,發揮計算機的高速運算能力,可能很快找到優化解。
缺點:
(1)最嚴重的問題是沒能力來解釋自己的推理過程和推理依據。
(2)不能向用戶提出必要的詢問,而且當數據不充分的時候,神經網路就無法進行工作。
(3)把一切問題的特徵都變為數字,把一切推理都變為數值計算,其結果勢必是丟失信息。
(4)理論和學習演算法還有待於進一步完善和提高。
(5)大腦神經網路結構哪個更好擴展閱讀:
神經網路發展趨勢
人工神經網路特有的非線性適應性信息處理能力,克服了傳統人工智慧方法對於直覺,如模式、語音識別、非結構化信息處理方面的缺陷,使之在神經專家系統、模式識別、智能控制、組合優化、預測等領域得到成功應用。
人工神經網路與其它傳統方法相結合,將推動人工智慧和信息處理技術不斷發展。近年來,人工神經網路正向模擬人類認知的道路上更加深入發展,與模糊系統、遺傳演算法、進化機制等結合,形成計算智能,成為人工智慧的一個重要方向,將在實際應用中得到發展。
將信息幾何應用於人工神經網路的研究,為人工神經網路的理論研究開辟了新的途徑。神經計算機的研究發展很快,已有產品進入市場。光電結合的神經計算機為人工神經網路的發展提供了良好條件。
神經網路在很多領域已得到了很好的應用,但其需要研究的方面還很多。其中,具有分布存儲、並行處理、自學習、自組織以及非線性映射等優點的神經網路與其他技術的結合以及由此而來的混合方法和混合系統,已經成為一大研究熱點。
由於其他方法也有它們各自的優點,所以將神經網路與其他方法相結合,取長補短,繼而可以獲得更好的應用效果。目前這方面工作有神經網路與模糊邏輯、專家系統、遺傳演算法、小波分析、混沌、粗集理論、分形理論、證據理論和灰色系統等的融合。
參考資料:網路-人工神經網路
⑥ NARX神經網路一定比BP神經網路更好嗎如果是,具體好在哪
這看你要解決什麼問題了,narx網路是為了給bp網路增加一定的序列學習能力,如果你有序列任務需求的話可以考慮採用narx網路。
單獨的說好不好並沒有意義
⑦ 有沒有好理解的關於神經網路的書推薦
神經系統(nervous system)是機體內對生理功能活動的調節起主導作用的系統,主要由神經組織組成,分為中樞神經系統和周圍神經系統兩大部分。中樞神經系統又包括腦和脊髓,周圍神經系統包括腦神經和脊神經。
神經系統是人體內起主導作用的功能調節系統。人體的結構與功能均極為復雜,體內各器官、系統的功能和各種生理過程都不是各自孤立地進行,而是在神經系統的直接或間接調節控制下,互相聯系、相互影響、密切配合,使人體成為一個完整統一的有機體,實現和維持正常的生命活動。同時,人體又是生活在經常變化的環境中,神經系統能感受到外部環境的變化,接受內外環境的變化信息,對體內各種功能不斷進行迅速而完善的調整,使人體適應體內外環境的變化。可見,神經系統在人體生命活動中起著主導的調節作用,人類的神經系統高度發展,特別是大腦皮層不僅進化成為調節控制的最高中樞,而且進化成為能進行思維活動的器官。因此,人類不但能適應環境,還能認識和改造世界。
神經系統由中樞部分及其外周部分所組成。中樞部分包括腦和脊髓,分別位於顱腔和椎管內,兩者在結構和功能上緊密聯系,組成中樞神經系統。外周部分包括12對腦神經和31對脊神經,它們組成外周神經系統。外周神經分布於全身,把腦和脊髓與全身其他器官聯系起來,使中樞神經系統既能感受內外環境的變化(通過傳入神經傳輸感覺信息),又能調節體內各種功能(通過傳出神經傳達調節指令),以保證人體的完整統一及其對環境的適應。神經系統的基本結構和功能單位是神經元(神經細胞),而神經元的活動和信息在神經系統中的傳輸則表現為一定的生物電變化及其傳播。例如,外周神經中的傳入神經纖維把感覺信息傳入中樞,傳出神經纖維把中樞發出的指令信息傳給效應器,都是以神經沖動的形式傳送的,而神經沖動就是一種稱為動作電位的生物電變化,是神經興奮的標志。
中樞神經通過周圍神經與人體其他各個器官、系統發生極其廣泛復雜的聯系。神經系統在維持機體內環境穩定,保持機體完整統一性及其與外環境的協調平衡中起著主導作用。在社會勞動中,人類的大腦皮層得到了高速發展和不斷完善,產生了語言、思維、學習、記憶等高級功能活動,使人不僅能適應環境的變化,而且能認識和主動改造環境。內、外環境的各種信息,由感受器接受後,通過周圍神經傳遞到腦和脊髓的各級中樞進行整合,再經周圍神經控制和調節機體各系統器官的活動,以維持機體與內、外界環境的相對平衡。神經系統是由神經細胞(神經元)和神經膠質所組成。
人體各器官、系統的功能都是直接或間接處於神經系統的調節控制之下,神經系統是整體內起主導作用的調節系統。人體是一個復雜的機體,各器官、系統的功能不是孤立的,它們之間互相聯系、互相制約;同時,人體生活在經常變化的環境中,環境的變化隨時影響著體內的各種功能。這就需要對體內各種功能不斷作出迅速而完善的調節,使機體適應內外環境的變化。實現這一調節功能的系統主要就是神經系統。
希望我能幫助你解疑釋惑。
⑧ 人工神經網路和人腦相比,目前到底有多強大
人工神經網路就像一個黑盒子,用於模擬任意函數。根據一定的訓練樣本(即所需模擬函數已知的輸入和輸出關系)神經網路可以改變其內部結構使其模型特性逼近訓練樣本。即所謂的自學習,自組織和自適應。並且,由於神經網路是採用整體逼近的方式,不會由於個別樣本誤差而影響整個模型特性,即所謂容錯特性。
其實用仿生的例子更容易理解,就像一個嬰兒,父母不斷教他說話,他最終能學習理解父母語言的意思,並且偶爾父母說錯一兩個字,孩子也能聽懂。
⑨ 想了解大腦的內部結構,最好是圖示
http://www.eku.cc/xzy/sctx/126562.htm
上面是圖片
大腦構造
大腦主要包括左、右大腦半球,是中樞神經系統的最高級部分。人類的大腦是在長期進化過程中發展起來的思維和意識的器官。大腦半球的外形和分葉左、右大腦半球由胼胝體相連。半球內的腔隙稱為側腦室,它們借室間孔與第三腦室相通。每個半球有三個面,即膨隆的背外側面,垂直的內側面和凹凸不平的底面。背外側面與內側面以上緣為界,背外側面與底面以下緣為界。半球表面凹凸不平,布滿深淺不同的溝和裂,溝裂之間的隆起稱為腦回。背外側面的主要溝裂有:中央溝從上緣近中點斜向前下方;大腦外側裂起自半球底面,轉至外側面由前下方斜向後上方。在半球的內側面有頂枕裂從後上方斜向前下方;距狀裂由後部向前連頂枕裂,向後達枕極附近。這些溝裂將大腦半球分為五個葉:即中央溝以前、外側裂以上的額葉;外側裂以下的顳葉;頂枕裂後方的枕葉以及外側裂上方、中央溝與頂枕裂之間的頂葉;以及深藏在外側裂里的腦島。另外,以中央溝為界,在中央溝與中央前溝之間為中央前回;中央溝與中央後溝之間為中央後回。
大腦半球的內部結構
1. 灰質:覆蓋在大腦半球表面的一層灰質稱為大腦皮層,是神經元胞體集中的地方。這些神經元在皮層中的分布具有嚴格的層次,大腦半球內側面的古皮層分化較簡單,一般只有三層:①分子層;②錐體細胞層;③多形細胞層。在大腦半球外側面的新皮層則分化程度較高,共有六層:①分子層(又稱帶狀層);②外顆粒層;③外錐體細胞層;④內顆粒層;⑤內錐體細胞層(又稱節細胞層);⑥多形細胞層。
2. 皮層的深面為白質,白質內還有灰質核,這些核靠近腦底,稱為基底核(或稱基底神經節)。基底核中主要為紋狀體。紋狀體由尾狀核和豆狀核組成。尾狀核前端粗、尾端細,彎曲並環繞丘腦;豆狀核位於尾狀核與丘腦的外側,又分為蒼白球與殼核。尾狀核與殼核在種系發生(即動物進化)上出現較遲,稱為新紋狀體,而蒼白球在種系發生上出現較早,稱為舊紋狀體。紋狀體的主要功能是使肌肉的運動協調,維持軀體一定的姿勢。
⑩ 人工神經網路是哪個流派的基礎
「純意念控制」人工神經康復機器人系統2014年6月14日在天津大學和天津市人民醫院共同舉辦的發表會上,由雙方共同研製的人工神經康復機器人「神工一號」正式亮相。
中文名
「純意念控制」人工神經康復機器人系統
發布時間
2014年6月14日
快速
導航
產品特色發展歷史
功能配置
「純意念控制」人工神經康復機器人系統在復合想像動作信息解析與處理、非同步腦——機介面訓練與識別、皮層——肌肉活動同步耦合優化、中風後抑鬱腦電非線性特徵提取與篩查等關鍵技術上取得了重大突破。
「純意念控制」人工神經康復機器人系統包括無創腦電感測模塊、想像動作特徵檢測模塊、運動意圖識別模塊、指令編碼介面模塊、刺激信息調理模塊、刺激電流輸出模塊6部分。
產品特色
「純意念控制」人工神經康復機器人系統最新研究成果將讓不少中風、癱瘓人士燃起重新獨立生活的希望。現已擁有包括23項授權國家發明專利、1項軟體著作權在內的自主知識產權集群,是全球首台適用於全肢體中風康復的「純意念控制」人工神經機器人系統。[1]
腦控機械外骨骼是利用被動機械牽引,非肌肉主動收縮激活。而「神工一號」則利用神經肌肉電刺激,模擬神經沖動的電刺激引起肌肉產生主動收縮,帶動骨骼和關節產生自主動作,與人體自主運動原理一致。
體驗者需要把裝有電極的腦電探測器戴在頭部,並在患病肢體的肌肉上安裝電極,藉助「神工一號」的連接,就可以用「意念」來「控制」自己本來無法行動的肢體了。[2]
發展歷史
「純意念控制」人工神經康復機器人系統技術歷時10年,是國家「863計劃「、「十二五」國家科技支撐計劃和國家優秀青年科學基金重點支持項目。
人工神經網路(Artificial Neural Network,即ANN ),是20世紀80 年代以來人工智慧領域興起的研究熱點。它從信息處理角度對人腦神經元網路進行抽象, 建立某種簡單模型,按不同的連接方式組成不同的網路。在工程與學術界也常直接簡稱為神經網路或類神經網路。神經網路是一種運算模型,由大量的節點(或稱神經元)之間相互聯接構成。每個節點代表一種特定的輸出函數,稱為激勵函數(activation function)。每兩個節點間的連接都代表一個對於通過該連接信號的加權值,稱之為權重,這相當於人工神經網路的記憶。網路的輸出則依網路的連接方式,權重值和激勵函數的不同而不同。而網路自身通常都是對自然界某種演算法或者函數的逼近,也可能是對一種邏輯策略的表達。
最近十多年來,人工神經網路的研究工作不斷深入,已經取得了很大的進展,其在模式識別、智能機器人、自動控制、預測估計、生物、醫學、經濟等領域已成功地解決了許多現代計算機難以解決的實際問題,表現出了良好的智能特性。
中文名
人工神經網路
外文名
artificial neural network
別稱
ANN
應用學科
人工智慧
適用領域范圍
模式分類
精品薦讀
「蠢萌」的神經網路
作者:牛油果進化論
快速
導航
基本特徵發展歷史網路模型學習類型分析方法特點優點研究方向發展趨勢應用分析
神經元
如圖所示
a1~an為輸入向量的各個分量
w1~wn為神經元各個突觸的權值
b為偏置
f為傳遞函數,通常為非線性函數。以下默認為hardlim()
t為神經元輸出
數學表示 t=f(WA'+b)
W為權向量
A為輸入向量,A'為A向量的轉置
b為偏置
f為傳遞函數
可見,一個神經元的功能是求得輸入向量與權向量的內積後,經一個非線性傳遞函數得到一個標量結果。
單個神經元的作用:把一個n維向量空間用一個超平面分割成兩部分(稱之為判斷邊界),給定一個輸入向量,神經元可以判斷出這個向量位於超平面的哪一邊。
該超平面的方程: Wp+b=0
W權向量
b偏置
p超平面上的向量
基本特徵
人工神經網路是由大量處理單元互聯組成的非線性、自適應信息處理系統。它是在現代神經科學研究成果的基礎上提出的,試圖通過模擬大腦神經網路處理、記憶信息的方式進行信息處理。人工神經網路具有四個基本特徵:
(1)非線性 非線性關系是自然界的普遍特性。大腦的智慧就是一種非線性現象。人工神經元處於激活或抑制二種不同的狀態,這種行為在數學上表現為一種非線性關系。具有閾值的神經元構成的網路具有更好的性能,可以提高容錯性和存儲容量。
人工神經網路
(2)非局限性 一個神經網路通常由多個神經元廣泛連接而成。一個系統的整體行為不僅取決於單個神經元的特徵,而且可能主要由單元之間的相互作用、相互連接所決定。通過單元之間的大量連接模擬大腦的非局限性。聯想記憶是非局限性的典型例子。
(3)非常定性 人工神經網路具有自適應、自組織、自學習能力。神經網路不但處理的信息可以有各種變化,而且在處理信息的同時,非線性動力系統本身也在不斷變化。經常採用迭代過程描寫動力系統的演化過程。
(4)非凸性 一個系統的演化方向,在一定條件下將取決於某個特定的狀態函數。例如能量函數,它的極值相應於系統比較穩定的狀態。非凸性是指這種函數有多個極值,故系統具有多個較穩定的平衡態,這將導致系統演化的多樣性。
人工神經網路中,神經元處理單元可表示不同的對象,例如特徵、字母、概念,或者一些有意義的抽象模式。網路中處理單元的類型分為三類:輸入單元、輸出單元和隱單元。輸入單元接受外部世界的信號與數據;輸出單元實現系統處理結果的輸出;隱單元是處在輸入和輸出單元之間,不能由系統外部觀察的單元。神經元間的連接權值反映了單元間的連接強度,信息的表示和處理體現在網路處理單元的連接關系中。人工神經網路是一種非程序化、適應性、大腦風格的信息處理 ,其本質是通過網路的變換和動力學行為得到一種並行分布式的信息處理功能,並在不同程度和層次上模仿人腦神經系統的信息處理功能。它是涉及神經科學、思維科學、人工智慧、計算機科學等多個領域的交叉學科。
人工神經網路
人工神經網路是並行分布式系統,採用了與傳統人工智慧和信息處理技術完全不同的機理,克服了傳統的基於邏輯符號的人工智慧在處理直覺、非結構化信息方面的缺陷,具有自適應、自組織和實時學習的特點。[1]
發展歷史
1943年,心理學家W.S.McCulloch和數理邏輯學家W.Pitts建立了神經網路和數學模型,稱為MP模型。他們通過MP模型提出了神經元的形式化數學描述和網路結構方法,證明了單個神經元能執行邏輯功能,從而開創了人工神經網路研究的時代。1949年,心理學家提出了突觸聯系強度可變的設想。60年代,人工神經網路得到了進一步發展,更完善的神經網路模型被提出,其中包括感知器和自適應線性元件等。M.Minsky等仔細分析了以感知器為代表的神經網路系統的功能及局限後,於1969年出版了《Perceptron》一書,指出感知器不能解決高階謂詞問題。他們的論點極大地影響了神經網路的研究,加之當時串列計算機和人工智慧所取得的成就,掩蓋了發展新型計算機和人工智慧新途徑的必要性和迫切性,使人工神經網路的研究處於低潮。在此期間,一些人工神經網路的研究者仍然致力於這一研究,提出了適應諧振理論(ART網)、自組織映射、認知機網路,同時進行了神經網路數學理論的研究。以上研究為神經網路的研究和發展奠定了基礎。1982年,美國加州工學院物理學家J.J.Hopfield提出了Hopfield神經網格模型,引入了「計算能量」概念,給出了網路穩定性判斷。 1984年,他又提出了連續時間Hopfield神經網路模型,為神經計算機的研究做了開拓性的工作,開創了神經網路用於聯想記憶和優化計算的新途徑,有力地推動了神經網路的研究,1985年,又有學者提出了波耳茲曼模型,在學習中採用統計熱力學模擬退火技術,保證整個系統趨於全局穩定點。1986年進行認知微觀結構地研究,提出了並行分布處理的理論。1986年,Rumelhart, Hinton, Williams發展了BP演算法。Rumelhart和McClelland出版了《Parallel distribution processing: explorations in the microstructures of cognition》。迄今,BP演算法已被用於解決大量實際問題。1988年,Linsker對感知機網路提出了新的自組織理論,並在Shanon資訊理論的基礎上形成了最大互信息理論,從而點燃了基於NN的信息應用理論的光芒。1988年,Broomhead和Lowe用徑向基函數(Radial basis function, RBF)提出分層網路的設計方法,從而將NN的設計與數值分析和線性適應濾波相掛鉤。90年代初,Vapnik等提出了支持向量機(Support vector machines, SVM)和VC(Vapnik-Chervonenkis)維數的概念。人工神經網路的研究受到了各個發達國家的重視,美國國會通過決議將1990年1月5日開始的十年定為「腦的十年」,國際研究組織號召它的成員國將「腦的十年」變為全球行為。在日本的「真實世界計算(RWC)」項目中,人工智慧的研究成了一個重要的組成部分。
人工神經網路
網路模型
人工神經網路模型主要考慮網路連接的拓撲結構、神經元的特徵、學習規則等。目前,已有近40種神經網路模型,其中有反傳網路、感知器、自組織映射、Hopfield網路、波耳茲曼機、適應諧振理論等。根據連接的拓撲結構,神經網路模型可以分為:[1]
人工神經網路
前向網路
網路中各個神經元接受前一級的輸入,並輸出到下一級,網路中沒有反饋,可以用一個有向無環路圖表示。這種網路實現信號從輸入空間到輸出空間的變換,它的信息處理能力來自於簡單非線性函數的多次復合。網路結構簡單,易於實現。反傳網路是一種典型的前向網路。[2]
反饋網路
網路內神經元間有反饋,可以用一個無向的完備圖表示。這種神經網路的信息處理是狀態的變換,可以用動力學系統理論處理。系統的穩定性與聯想記憶功能有密切關系。Hopfield網路、波耳茲曼機均屬於這種類型。
學習類型
學習是神經網路研究的一個重要內容,它的適應性是通過學習實現的。根據環境的變化,對權值進行調整,改善系統的行為。由Hebb提出的Hebb學習規則為神經網路的學習演算法奠定了基礎。Hebb規則認為學習過程最終發生在神經元之間的突觸部位,突觸的聯系強度隨著突觸前後神經元的活動而變化。在此基礎上,人們提出了各種學習規則和演算法,以適應不同網路模型的需要。有效的學習演算法,使得神經網路能夠通過連接權值的調整,構造客觀世界的內在表示,形成具有特色的信息處理方法,信息存儲和處理體現在網路的連接中。
人工神經網路
分類
根據學習環境不同,神經網路的學習方式可分為監督學習和非監督學習。在監督學習中,將訓練樣本的數據加到網路輸入端,同時將相應的期望輸出與網路輸出相比較,得到誤差信號,以此控制權值連接強度的調整,經多次訓練後收斂到一個確定的權值。當樣本情況發生變化時,經學習可以修改權值以適應新的環境。使用監督學習的神經網路模型有反傳網路、感知器等。非監督學習時,事先不給定標准樣本,直接將網路置於環境之中,學習階段與工作階段成為一體。此時,學習規律的變化服從連接權值的演變方程。非監督學習最簡單的例子是Hebb學習規則。競爭學習規則是一個更復雜的非監督學習的例子,它是根據已建立的聚類進行權值調整。自組織映射、適應諧振理論網路等都是與競爭學習有關的典型模型。
分析方法
研究神經網路的非線性動力學性質,主要採用動力學系統理論、非線性規劃理論和統計理論,來分析神經網路的演化過程和吸引子的性質,探索神經網路的協同行為和集體計算功能,了解神經信息處理機制。為了探討神經網路在整體性和模糊性方面處理信息的可能,混沌理論的概念和方法將會發揮作用。混沌是一個相當難以精確定義的數學概念。一般而言,「混沌」是指由確定性方程描述的動力學系統中表現出的非確定性行為,或稱之為確定的隨機性。「確定性」是因為它由內在的原因而不是外來的雜訊或干擾所產生,而「隨機性」是指其不規則的、不能預測的行為,只可能用統計的方法描述。