『壹』 你是真摘我神經啊什麼意思
這句話的意思是說,你在網路上做出了非常震驚人的事情,比喻我無論是神經多麼大條,都無法相信這件事情能夠發生,可以說你給他做成了非常大的影響。
這句話的意思是說,你在網路上做出了非常震驚人的事情,比喻我無論是神經多麼大條,都無法相信這件事情能夠發生,可以說你給他做成了非常大的影響。這句話經常用來日常的對話,或是網路上經常用來調侃的,通用性很高,是個很不錯的用語。很瘋,常做一些超乎想像的事,讓網友既吃驚又討厭,二詞既出。
『貳』 神經網路:卷積神經網路(CNN)
神經網路 最早是由心理學家和神經學家提出的,旨在尋求開發和測試神經的計算模擬。
粗略地說, 神經網路 是一組連接的 輸入/輸出單元 ,其中每個連接都與一個 權 相關聯。在學習階段,通過調整權值,使得神經網路的預測准確性逐步提高。由於單元之間的連接,神經網路學習又稱 連接者學習。
神經網路是以模擬人腦神經元的數學模型為基礎而建立的,它由一系列神經元組成,單元之間彼此連接。從信息處理角度看,神經元可以看作是一個多輸入單輸出的信息處理單元,根據神經元的特性和功能,可以把神經元抽象成一個簡單的數學模型。
神經網路有三個要素: 拓撲結構、連接方式、學習規則
神經網路的拓撲結構 :神經網路的單元通常按照層次排列,根據網路的層次數,可以將神經網路分為單層神經網路、兩層神經網路、三層神經網路等。結構簡單的神經網路,在學習時收斂的速度快,但准確度低。
神經網路的層數和每層的單元數由問題的復雜程度而定。問題越復雜,神經網路的層數就越多。例如,兩層神經網路常用來解決線性問題,而多層網路就可以解決多元非線性問題
神經網路的連接 :包括層次之間的連接和每一層內部的連接,連接的強度用權來表示。
根據層次之間的連接方式,分為:
1)前饋式網路:連接是單向的,上層單元的輸出是下層單元的輸入,如反向傳播網路,Kohonen網路
2)反饋式網路:除了單項的連接外,還把最後一層單元的輸出作為第一層單元的輸入,如Hopfield網路
根據連接的范圍,分為:
1)全連接神經網路:每個單元和相鄰層上的所有單元相連
2)局部連接網路:每個單元只和相鄰層上的部分單元相連
神經網路的學習
根據學習方法分:
感知器:有監督的學習方法,訓練樣本的類別是已知的,並在學習的過程中指導模型的訓練
認知器:無監督的學習方法,訓練樣本類別未知,各單元通過競爭學習。
根據學習時間分:
離線網路:學習過程和使用過程是獨立的
在線網路:學習過程和使用過程是同時進行的
根據學習規則分:
相關學習網路:根據連接間的激活水平改變權系數
糾錯學習網路:根據輸出單元的外部反饋改變權系數
自組織學習網路:對輸入進行自適應地學習
摘自《數學之美》對人工神經網路的通俗理解:
神經網路種類很多,常用的有如下四種:
1)Hopfield網路,典型的反饋網路,結構單層,有相同的單元組成
2)反向傳播網路,前饋網路,結構多層,採用最小均方差的糾錯學習規則,常用於語言識別和分類等問題
3)Kohonen網路:典型的自組織網路,由輸入層和輸出層構成,全連接
4)ART網路:自組織網路
深度神經網路:
Convolutional Neural Networks(CNN)卷積神經網路
Recurrent neural Network(RNN)循環神經網路
Deep Belief Networks(DBN)深度信念網路
深度學習是指多層神經網路上運用各種機器學習演算法解決圖像,文本等各種問題的演算法集合。深度學習從大類上可以歸入神經網路,不過在具體實現上有許多變化。
深度學習的核心是特徵學習,旨在通過分層網路獲取分層次的特徵信息,從而解決以往需要人工設計特徵的重要難題。
Machine Learning vs. Deep Learning
神經網路(主要是感知器)經常用於 分類
神經網路的分類知識體現在網路連接上,被隱式地存儲在連接的權值中。
神經網路的學習就是通過迭代演算法,對權值逐步修改的優化過程,學習的目標就是通過改變權值使訓練集的樣本都能被正確分類。
神經網路特別適用於下列情況的分類問題:
1) 數據量比較小,缺少足夠的樣本建立模型
2) 數據的結構難以用傳統的統計方法來描述
3) 分類模型難以表示為傳統的統計模型
缺點:
1) 需要很長的訓練時間,因而對於有足夠長訓練時間的應用更合適。
2) 需要大量的參數,這些通常主要靠經驗確定,如網路拓撲或「結構」。
3) 可解釋性差 。該特點使得神經網路在數據挖掘的初期並不看好。
優點:
1) 分類的准確度高
2)並行分布處理能力強
3)分布存儲及學習能力高
4)對噪音數據有很強的魯棒性和容錯能力
最流行的基於神經網路的分類演算法是80年代提出的 後向傳播演算法 。後向傳播演算法在多路前饋神經網路上學習。
定義網路拓撲
在開始訓練之前,用戶必須說明輸入層的單元數、隱藏層數(如果多於一層)、每一隱藏層的單元數和輸出層的單元數,以確定網路拓撲。
對訓練樣本中每個屬性的值進行規格化將有助於加快學習過程。通常,對輸入值規格化,使得它們落入0.0和1.0之間。
離散值屬性可以重新編碼,使得每個域值一個輸入單元。例如,如果屬性A的定義域為(a0,a1,a2),則可以分配三個輸入單元表示A。即,我們可以用I0 ,I1 ,I2作為輸入單元。每個單元初始化為0。如果A = a0,則I0置為1;如果A = a1,I1置1;如此下去。
一個輸出單元可以用來表示兩個類(值1代表一個類,而值0代表另一個)。如果多於兩個類,則每個類使用一個輸出單元。
隱藏層單元數設多少個「最好」 ,沒有明確的規則。
網路設計是一個實驗過程,並可能影響准確性。權的初值也可能影響准確性。如果某個經過訓練的網路的准確率太低,則通常需要採用不同的網路拓撲或使用不同的初始權值,重復進行訓練。
後向傳播演算法學習過程:
迭代地處理一組訓練樣本,將每個樣本的網路預測與實際的類標號比較。
每次迭代後,修改權值,使得網路預測和實際類之間的均方差最小。
這種修改「後向」進行。即,由輸出層,經由每個隱藏層,到第一個隱藏層(因此稱作後向傳播)。盡管不能保證,一般地,權將最終收斂,學習過程停止。
演算法終止條件:訓練集中被正確分類的樣本達到一定的比例,或者權系數趨近穩定。
後向傳播演算法分為如下幾步:
1) 初始化權
網路的權通常被初始化為很小的隨機數(例如,范圍從-1.0到1.0,或從-0.5到0.5)。
每個單元都設有一個偏置(bias),偏置也被初始化為小隨機數。
2) 向前傳播輸入
對於每一個樣本X,重復下面兩步:
向前傳播輸入,向後傳播誤差
計算各層每個單元的輸入和輸出。輸入層:輸出=輸入=樣本X的屬性;即,對於單元j,Oj = Ij = Xj。隱藏層和輸出層:輸入=前一層的輸出的線性組合,即,對於單元j, Ij =wij Oi + θj,輸出=
3) 向後傳播誤差
計算各層每個單元的誤差。
輸出層單元j,誤差:
Oj是單元j的實際輸出,而Tj是j的真正輸出。
隱藏層單元j,誤差:
wjk是由j到下一層中單元k的連接的權,Errk是單元k的誤差
更新 權 和 偏差 ,以反映傳播的誤差。
權由下式更新:
其中,△wij是權wij的改變。l是學習率,通常取0和1之間的值。
偏置由下式更新:
其中,△θj是偏置θj的改變。
Example
人類視覺原理:
深度學習的許多研究成果,離不開對大腦認知原理的研究,尤其是視覺原理的研究。1981 年的諾貝爾醫學獎,頒發給了 David Hubel(出生於加拿大的美國神經生物學家) 和Torsten Wiesel,以及Roger Sperry。前兩位的主要貢獻,是「發現了視覺系統的信息處理」, 可視皮層是分級的 。
人類的視覺原理如下:從原始信號攝入開始(瞳孔攝入像素Pixels),接著做初步處理(大腦皮層某些細胞發現邊緣和方向),然後抽象(大腦判定,眼前的物體的形狀,是圓形的),然後進一步抽象(大腦進一步判定該物體是只氣球)。
對於不同的物體,人類視覺也是通過這樣逐層分級,來進行認知的:
在最底層特徵基本上是類似的,就是各種邊緣,越往上,越能提取出此類物體的一些特徵(輪子、眼睛、軀乾等),到最上層,不同的高級特徵最終組合成相應的圖像,從而能夠讓人類准確的區分不同的物體。
可以很自然的想到:可以不可以模仿人類大腦的這個特點,構造多層的神經網路,較低層的識別初級的圖像特徵,若干底層特徵組成更上一層特徵,最終通過多個層級的組合,最終在頂層做出分類呢?答案是肯定的,這也是許多深度學習演算法(包括CNN)的靈感來源。
卷積神經網路是一種多層神經網路,擅長處理圖像特別是大圖像的相關機器學習問題。卷積網路通過一系列方法,成功將數據量龐大的圖像識別問題不斷降維,最終使其能夠被訓練。
CNN最早由Yann LeCun提出並應用在手寫字體識別上。LeCun提出的網路稱為LeNet,其網路結構如下:
這是一個最典型的卷積網路,由 卷積層、池化層、全連接層 組成。其中卷積層與池化層配合,組成多個卷積組,逐層提取特徵,最終通過若干個全連接層完成分類。
CNN通過卷積來模擬特徵區分,並且通過卷積的權值共享及池化,來降低網路參數的數量級,最後通過傳統神經網路完成分類等任務。
降低參數量級:如果使用傳統神經網路方式,對一張圖片進行分類,那麼,把圖片的每個像素都連接到隱藏層節點上,對於一張1000x1000像素的圖片,如果有1M隱藏層單元,一共有10^12個參數,這顯然是不能接受的。
但是在CNN里,可以大大減少參數個數,基於以下兩個假設:
1)最底層特徵都是局部性的,也就是說,用10x10這樣大小的過濾器就能表示邊緣等底層特徵
2)圖像上不同小片段,以及不同圖像上的小片段的特徵是類似的,也就是說,能用同樣的一組分類器來描述各種各樣不同的圖像
基於以上兩個假設,就能把第一層網路結構簡化
用100個10x10的小過濾器,就能夠描述整幅圖片上的底層特徵。
卷積運算的定義如下圖所示:
如上圖所示,一個5x5的圖像,用一個3x3的 卷積核 :
101
010
101
來對圖像進行卷積操作(可以理解為有一個滑動窗口,把卷積核與對應的圖像像素做乘積然後求和),得到了3x3的卷積結果。
這個過程可以理解為使用一個過濾器(卷積核)來過濾圖像的各個小區域,從而得到這些小區域的特徵值。在實際訓練過程中, 卷積核的值是在學習過程中學到的。
在具體應用中,往往有多個卷積核,可以認為, 每個卷積核代表了一種圖像模式 ,如果某個圖像塊與此卷積核卷積出的值大,則認為此圖像塊十分接近於此卷積核。如果設計了6個卷積核,可以理解為這個圖像上有6種底層紋理模式,也就是用6種基礎模式就能描繪出一副圖像。以下就是24種不同的卷積核的示例:
池化 的過程如下圖所示:
可以看到,原始圖片是20x20的,對其進行采樣,采樣窗口為10x10,最終將其采樣成為一個2x2大小的特徵圖。
之所以這么做,是因為即使做完了卷積,圖像仍然很大(因為卷積核比較小),所以為了降低數據維度,就進行采樣。
即使減少了許多數據,特徵的統計屬性仍能夠描述圖像,而且由於降低了數據維度,有效地避免了過擬合。
在實際應用中,分為最大值采樣(Max-Pooling)與平均值采樣(Mean-Pooling)。
LeNet網路結構:
注意,上圖中S2與C3的連接方式並不是全連接,而是部分連接。最後,通過全連接層C5、F6得到10個輸出,對應10個數字的概率。
卷積神經網路的訓練過程與傳統神經網路類似,也是參照了反向傳播演算法
第一階段,向前傳播階段:
a)從樣本集中取一個樣本(X,Yp),將X輸入網路;
b)計算相應的實際輸出Op
第二階段,向後傳播階段
a)計算實際輸出Op與相應的理想輸出Yp的差;
b)按極小化誤差的方法反向傳播調整權矩陣。
『叄』 被人摘神經是什麼意思
神經損傷是比較痛的,如果是不經過處理地切神經以後會形成神經瘤,那會非常痛。如果是手術切神經,那就是導致患者感覺和運動喪失。
『肆』 網路線蟲是什麼意思
網路線蟲意思是指線蟲神經網路。大多數人可能沒聽說過秀麗隱桿線蟲,然而對於從事生物學研究的人來說,它可是個大明星,至少兩個諾貝爾獎要歸功於它。秀麗隱桿線蟲是第一個基因組被測繪出來的生物,也是目前世界上唯一被完整繪制出神經網路的生物。
也就是說我們知道這種蟲子有多少個神經元、神經元之間是怎麼連接的、甚至連接的類型和強度都被測量出來了。基於這些知識,我們可以在計算機中創造一個虛擬的蟲子大腦,觀察它的反應。線蟲有望成為第一個被虛擬化的生物。
做這件事的意義在於,現在工廠或實驗室中的機器人都是由人編程實現某種動作或功能,嚴格來說它們並不是自主的。它們最大的缺點就是沒有適應能力,當任務或者環境改變後,它們就無法正常工作了。與之形成鮮明對比的是各種動物,它們具有很強的應變能力。
例如秀麗隱桿線蟲,別看它的大腦很簡單,但是它表現出來的行為卻非常豐富。也許,通過研究秀麗隱桿線蟲能幫助我們提高機器人的適應能力。
線蟲神經網路
神經元
秀麗隱桿線蟲(Caenorhabditis elegans)的神經系統由302個神經元構成。由於演化的隨機性,每個蟲子的大腦或多或少有點不一樣,但是基本上差不太多,我們可以將其視為一個蟲子。
在這302個神經元中,有兩個神經元(CANL和CANR)比較孤獨,它們沒有與任何神經元產生連接,因此可以不考慮它們。所以我們只需要處理300個神經元。這剩下的300個神經元,我們可以給它們分分類。有的神經元是感知環境的,它們相當於輸入。
有的神經元是驅動肌肉的,它們相當於輸出,而位於輸入和輸出之間的稱為中間神經元。當然,這只是人類圖省事一廂情願的劃分,實際情況要復雜一些,因為有的神經元是兼職。再進一步細分,感知神經元中有的是感知食物的,有的是感知溫度的,有的是感知接觸的。
這樣我們的「虛擬」線蟲大腦就具有了輸入輸出功能。當然,這樣的大腦還不能用,因為缺少中間神經元。
『伍』 Semaphorin 是什麼意思。醫學用語,和基因有關..
Semaphorin 則是一種軸突導向因子。
在神經系統發育過程中,神經元的軸突只有精確的抵達其目標位置才能形成具有正常生理功能的神經網路。目前至少已經確認了4類起重要作用的軸突導向因子家族:semaphorins,slits,netrins和ehprins。其中semaphorins是一個至少包含20個成員的大家族,它的成員都是分泌型或與膜結合的蛋白。
semaphorin的受體主要包括neuropilins和神經叢素(plexins),neuropilins可作為semaphorin的結合位點,而plexins則起信號轉換器的作用。RhoGTP酶和CRMPs被認為是semaphorins信號通路中的重要物質,參與調節sem aphorin引起的細胞骨架的改變。
『陸』 gnn什麼意思
指圖形神經網路。
生物神經網路主要是指人腦的神經網路,它是人工神經網路的技術原型。人腦是人類思維的物質基礎,思維的功能定位在大腦皮層,後者含有大約10^11個神經元。
每個神經元又通過神經突觸與大約103個其它神經元相連,形成一個高度復雜高度靈活的動態網路。作為一門學科,生物神經網路主要研究人腦神經網路的結構、功能及其工作機制,意在探索人腦思維和智能活動的規律。
相關信息:
人工神經網路是生物神經網路在某種簡化意義下的技術復現,作為一門學科,它的主要任務是根據生物神經網路的原理和實際應用的需要建造實用的人工神經網路模型。
設計相應的學習演算法,模擬人腦的某種智能活動,然後在技術上實現出來用以解決實際問題。因此,生物神經網路主要研究智能的機理;人工神經網路主要研究智能機理的實現,兩者相輔相成。
『柒』 科學技術術語有哪些
基因修補技術 轉基因食品 基因工程 基因治療 人類基因組 單克隆抗體技術 蛋白質工程
醫學倫理學 器官移植 生物醫學工程 細胞工程 細胞學說 生命科學 生物工程
『捌』 qnn是什麼意思網路用語
神經網路(QNN)的方法,在運行時具有極低精度(例如1bit)權重和激活的神經網路。在訓練時期,量化的權重和激活值被用於計算參數梯度。在前向傳遞期間,QNN大大減少了內存大小和訪問,並用按位運算代替了大多數算術運算。結果,預期功耗將大大降低。我們通過MNIST,CIFAR-10,SVHN和ImageNet數據集訓練了QNN。由此產生的QNN可以達到與32-bit同類網路相當的預測精度。例如,我們的AlexNet量化版本具有1-bit權重和2-bit激活,可實現51%的top-1准確性。此外,我們還將參數梯度量化為6-bit,這使得僅使用按位運算就可以進行梯度計算。在Penn Treebank數據集上對量化的遞歸神經網路進行了測試,並僅使用4-bit就獲得了與32-bit相當的准確性。最後但並非最不重要的一點是,我們對二進制矩陣乘法GPU內核進行了編程,與未優化的GPU內核相比,使用它可以使MNIST QNN的運行速度快7倍,而不會降低分類精度。 QNN代碼已開源。
『玖』 貝葉斯神經網路
通過優化的標准神經網路訓練(從概率的角度來看)等同於權重的最大似然估計(MLE)。由於許多原因,這往往是不能令人滿意的 —— 使用 MLE 會忽略在適當的權重值中可能存在的任何不確定性,即無法正確評估訓練數據中的不確定性,從實際的角度來看,這種類型的訓練容易出現過擬合現象。
對此的一個解決方案是引入正則化(從貝葉斯的角度來看,這相當於在權重上引入先驗)。如果我們可以通過規范模型來解決過度自信決策和防止模型過度擬合的問題,那為什麼我們需要貝葉斯神經網路?答案是: 當前神經網路架構中缺少預測中的不確定性度量,但貝葉斯神經網路將其納入其中 。BNN 在特定環境中很重要,特別是當我們非常關心不確定性時,貝葉斯方法自然地解釋了參數估計中的不確定性,並且可以將這種不確定性傳播到預測中。
深度神經網路已成功應用於許多領域,包括非常敏感的領域,如醫療保健,安全性,欺詐性交易等等。這些領域在很大程度上依賴於模型的預測准確性,甚至一個過度自信的決策也可能導致一個大問題。此外,這些領域具有非常不平衡的數據集(百萬個交易中的一個是欺詐性交易,百分之五的癌症檢測結果是陽性,不到百分之一的電子郵件是垃圾郵件),容易導致該模型過度擬合。
從概率論的角度來看,使用單點估計權重以進行分類是不合理的。而貝葉斯神經網路對於過擬合更加魯棒,並且可以從小數據集中輕松學習。 貝葉斯方法將其參數以概率分布的形式表示以提供不確定性估計;同時,通過使用先驗概率分布的形式來表示參數,訓練期間在許多模型上計算平均值,這給網路提供了正則化效果,從而防止過度擬合 。
在標准神經網路中,權重由單個點表示。 而貝葉斯神經網路以分布形式表示權重,如下圖所示:
即使使用少量參數,在貝葉斯神經網路中推斷後驗模型也是一項艱巨的任務,因此通常使用後驗模型的近似值,變分推理是一種流行的方法。人們將使用簡單的變分分布(例如高斯分布)對後驗進行模擬,並嘗試調整分布的參數使其盡可能接近真實的後驗 —— 通過最小化這種簡單變分分布和真實後驗之間的 KL 散度來完成。
但是用於逼近 BNN 後驗的變分方法在計算上可能相當昂貴,因為使用近似分布會大大增加模型參數的數量,但不會大幅增加模型容量。例如,使用 BNN 後驗近似的高斯分布,模型參數的數量增加了一倍,但報告了與使用丟失的傳統方法相同的預測性能。 這使得該方法在實踐中不適合與 CNN 一起使用,因為參數數量的增加太昂貴。
關於神經網路權重的精確貝葉斯推斷是難以處理的,因為參數的數量非常大,並且神經網路的函數形式不適合精確積分。 因此,我們用變分概率分布 q θ (w | D) 逼近難以處理的真實後驗概率分布 p(w | D),它包括高斯分布的性質 μ∈ℝ d 和 σ∈ℝ d ,表示為 N(θ | μ,σ²),其中 d 是定義概率分布的參數總數。 這些高斯變分後驗概率分布的形狀由它們的方差 σ² 確定,表示每個模型參數的不確定性估計。
在觀察數據之前定義先驗概率分布,一旦觀察到數據(訓練數據),學習就發生並且分布變換為後驗分布。 利用概率論從數據中學習構成了貝葉斯學習的基礎。貝葉斯定理如下:
P(θ | x) 為後驗概率,也是我們想要計算的;P(θ) 為先驗概率,在訓練數據之前就是已知的;P(x | θ) 為可能性,顯示了數據分布;P(x) 為證據,我們只能通過對所有可能的模型值積分來計算其值:
這使得問題變得棘手,因此我們採用變分近似來找到近似貝葉斯後驗分布。
首先,我們的原始目標是,需要根據已有數據推斷需要的分布 p;當 p(下圖中黃色區域)不容易表達,不能直接求解時,可以嘗試用變分推斷的方法, 即,尋找容易表達和求解的分布 q(下圖中紅線和綠線構成的區域),當 q 和 p 的差距很小的時候,q 就可以作為 p 的近似分布,成為輸出結果了。例如,我們用 q θ (w | D) 來近似 p(w | D)。首先注意 q θ (w | D) 的表達,其中 w 是變數,θ 是後驗概率分布 q 的參數。所以在構造 q 的時候也分兩步:第一,概率分布的選擇;第二,參數的選擇。第一步,我們在選擇 q 的概率分布時,通常會直觀選擇 p 可能的概率分布,這樣能夠更好地保證 q 和 p 的相似程度。例如高斯混合模型中,原始假設 p 服從高斯分布,則構造的 q 依然服從高斯分布。之後,我們通過改變 θ,使得 q 不斷逼近 p。
我們希望盡可能接近真正的分布,這可以通過最小化兩者之間的 Kullback-Liebler(KL)散度來做到這一點。然而 KL 的表達式中依然有一部分不可求的後驗概率,這個問題仍然是棘手的,所以用到了 ELBO:
但是由於積分的存在,這個公式仍然難以解決。此時,我們可以從近似函數 q θ (w | D) 中進行采樣,因為從近似函數中采樣權值要比真正的後驗函數 p(w | D) 更容易。這樣得到容易計算的函數:
這些采樣權值 w 被用於神經網路的反向傳播,學習後驗分布。
貝葉斯建模中,存在兩種類型的不確定:偶然不確定性和認知不確定性。
可以通過在模型參數或模型輸出上放置概率分布來估計不確定性 。通過在模型的權重上放置先驗分布,然後嘗試捕獲這些權重在給定數據的情況下變化多少來模擬認知不確定性。另一方面,通過在模型的輸出上放置分布來模擬偶然不確定性。
傳統神經網路常使用反向傳播來訓練。對於 BNN,其自然地解釋了參數估計中的不確定性,並且可以將這種不確定性傳播到預測結果中;此外,對參數值進行取平均而不是僅選擇單點估計值使得模型不易出現過擬合。因此,對 BNN 參數的訓練也需要特殊的訓練方法,Bayes by Backprop 就是其中一種(它也是一種變分推斷)。
Bayes by Backprop 用來學習神經網路權重的概率分布。它是一種變分推理方法,用於學習神經網路權重 w ~ q θ (w | D) 的後驗分布,可以在反向傳播中對權重 w 進行采樣。整個方法可歸納如下:
由於參數數目較大,所以需要對模型權重進行適當的修剪。模型修剪減少了深度神經網路的各種連接矩陣中的稀疏性,從而減少了模型中有價值的參數的數量。模型修剪的整個想法是減少參數的數量而不會損失模型的准確性。最常用的修剪模型的方法是將低貢獻權重映射到零並減少整體非零值權重的數量,可以通過訓練大型稀疏模型並進一步修剪來實現。
(這部分內容摘自 一個例子搞清楚 先驗分布/後驗分布/似然估計 )
給定一些數據樣本 x,假定我們知道樣本是從某一種分布中隨機取出的,但我們不知道這個分布具體的參數 θ。
因為給定樣本 x 後, p(x) 會在 θ 空間上為一個定值,和 θ 的大小沒有關系,所以可以省略分母 p(x)。 可化簡為:
p(x) 相當於是一個歸一化項,整個公式就表示為: Posterior∝(Likelihood∗Prior)(後驗概率 正比於 先驗概率 ∗ 似然函數)
需要一提的是,對貝葉斯 CNN 而言,不僅在卷積層中將概率分布置於權重上,還要求在全連接層中將概率分布置於權重上。
假設權重的變分後驗概率分布 q θ (w ijhw | D) = N(μ ijhw ,α ijhw μ 2 ijhw )(其中,i 和 j 分別對應輸入和輸出層數,h 和 w 分別對應過濾器的高度和寬度),那麼卷積公式被重定義為:
其中,ε j ~ N(0,1),A i 為過濾器在第 i 層要卷積的部分,b j 為相應的第 j 層的激活值,∗ 為卷積操作,⊙ 為元素乘法(component-wise multiplication)。
對 CNN 的權重應用概率分布而非單點值,並且要在反向傳播時更新變分後驗概率分布 q θ (w | D),關鍵在於過濾器會執行兩次卷積操作(在單點預測的 CNN 中只執行一次卷積)。
從前面的公式我們看到,卷積操作的輸出 b 是期望 μ ijhw 和方差 α ijhw μ 2 ijhw 的函數,因此我們可以分別計算出 μ ijhw 和 α ijhw μ 2 ijhw 的值,從而可以得到一個高斯概率分布。方法就是執行兩次卷積操作:第一次,我們將 b 視為通過頻率推理更新的 CNN 的輸出,將單點估計值解釋為變分後驗概率分布的期望;第二次,我們將得到方差。通過這種方式,我們確保每個卷積操作只更新一個參數(第一次為 μ ijhw ,第二次為 α ijhw ),這與通過頻率推斷更新的 CNN 完全相同。
實際上,當我們執行第一次卷積操作,我們得到的是 q θ (w | D) 的最大後驗概率,而第二次卷積操作則是得出權重 w 偏離了最大後驗概率多少。另外,為了加速計算,確保方差 α ijhw μ 2 ijhw 為非零正數,並提到准確度,我們學習 logα ijhw 並使用 Softplus 激活函數。
在分類任務中,我們關注的是 P D (y* | x*);對於貝葉斯神經網路,其被表示為:
在 Bayes by Backprop 中,q θ (w | D) ~ N(w | μ, σ 2 ),而 θ = {μ, σ} 在數據集 D = {x i , y i } n i=1 的訓練中學習得到。由於分類問題多是離散的,因此:
其中,Σ c f(x c ∗ | w) = 1,C 為總類數。通過從 q θ (w | D) 取樣,可以獲得期望值的無偏估計:
T 為樣本數量。這個估計值允許我們評估預測值的不確定性,因此稱為預測方差,用 Var q 表示:
這個值可以進一步分為偶然不確定性和認知不確定性:
由於貝葉斯 CNN 中的權重都由期望和方差來表示其分布,因此,相較於單點估計 CNN,貝葉斯 CNN 的參數數量翻了一倍。為了使貝葉斯 CNN 參數數量等於傳統 CNN,可以使 BCNN 的過濾器數目減半。
另一種模型修剪的技術是對每層的權重使用 L1 歸一化。通過 L1 歸一化,我們使各模型層中的權重向量變得非常稀疏,即大部分矩陣元素變得接近零;同時,剩餘的非零元素則捕獲數據的最重要特徵。我們設置一個閾值,如果該值低於閾值,則使權重為零。通過只保留非零權重,可以減少模型的參數數量,而不會影響模型的整體性能。
看了一些國內的論文,將貝葉斯應用於 BP 神經網路優化,往往是利用貝葉斯定理尋找最優神經網路參數,以解決神經網路權值易陷入局部最優的問題,同時也能解決神經網路過擬合。其中心思想在於: 根據給定的先驗分布,利用貝葉斯定理考察神經網路參數的不確定性,從樣本數據中,獲得網路結構的後驗概率,那麼,使得該後驗概率最大化的網路參數即為所需的最優參數 (我認為這其實是 MAP 而非貝葉斯估計)。最優參數定義為:
為方便計算,對後驗概率取對數得到:
假設先驗概率分布 p(w) 滿足高斯分布:
則有:
上式中,似然函數部分對應於目標函數中的適應度函數,而先驗概率部分對應於正則項,因此我們可以通過確定先驗概率得到正則項,從而對神經網路的目標函數進行優化,進而有效控制網路規模,提高網路泛化能力。
後驗分布是人們在獲得樣本數據 D 之後對參數 w 的一種調整。 貝葉斯把上一步得到的後驗分布信息儲存起來,在將來做推測時,上一步的後驗信息就成為了先驗信息 ,這樣持續數次操作之後,樣本數據的預測結果會一直進行調整,最後對參數估計的結果精確度更高。
神經網路中最重要的兩個性能參數就是權值和閾值,而這兩個參數的分布情況受到了目標函數中超參數的控制,但一般的演算法不能確定超參數的取值。可以利用貝葉斯定理來求取目標函數的超參數,並且要求達到自主調節超參數取值的目標,並且通過持續的調整最後找到最優的取值,相應的確定 BP 神經網路的最優權值和閾值。
『拾』 mm和nn是什麼意思
網路詞彙mm就是「妹妹」或者「美眉」的意思,是取自這兩個詞的首寫字母縮寫。此詞的縮寫最早出現在BBS上,當時因為電腦的儲存空間和網路傳輸帶寬極其有限而出現了很多漢字片語的縮寫,在當時甚至發表帖子都盡量使用半形的標點符號來節省空間。
網路語nn是奶奶的意思,也是取字奶奶的拼音的首寫字母。
網路語言有兩種含義:
一是指跟互聯網及計算機技術與應用有關的術語和詞彙。
二是人們利用計算機互聯網媒介進行交際與表達活動時所使用的語言。
總結:網路語是伴隨著網路的發展而新興的一種有別於傳統平面媒介的語言形式。其以簡潔生動的形式甫一誕生就得到了廣大網友的喜愛,發展得很神速。