1. 從零開始用Python構建神經網路
從零開始用Python構建神經網路
動機:為了更加深入的理解深度學習,我們將使用 python 語言從頭搭建一個神經網路,而不是使用像 Tensorflow 那樣的封裝好的框架。我認為理解神經網路的內部工作原理,對數據科學家來說至關重要。
這篇文章的內容是我的所學,希望也能對你有所幫助。
神經網路是什麼?
介紹神經網路的文章大多數都會將它和大腦進行類比。如果你沒有深入研究過大腦與神經網路的類比,那麼將神經網路解釋為一種將給定輸入映射為期望輸出的數學關系會更容易理解。
神經網路包括以下組成部分
? 一個輸入層,x
? 任意數量的隱藏層
? 一個輸出層,?
? 每層之間有一組權值和偏置,W and b
? 為隱藏層選擇一種激活函數,σ。在教程中我們使用 Sigmoid 激活函數
下圖展示了 2 層神經網路的結構(注意:我們在計算網路層數時通常排除輸入層)
2 層神經網路的結構
用 Python 可以很容易的構建神經網路類
訓練神經網路
這個網路的輸出 ? 為:
你可能會注意到,在上面的等式中,輸出 ? 是 W 和 b 函數。
因此 W 和 b 的值影響預測的准確率. 所以根據輸入數據對 W 和 b 調優的過程就被成為訓練神經網路。
每步訓練迭代包含以下兩個部分:
? 計算預測結果 ?,這一步稱為前向傳播
? 更新 W 和 b,,這一步成為反向傳播
下面的順序圖展示了這個過程:
前向傳播
正如我們在上圖中看到的,前向傳播只是簡單的計算。對於一個基本的 2 層網路來說,它的輸出是這樣的:
我們在 NeuralNetwork 類中增加一個計算前向傳播的函數。為了簡單起見我們假設偏置 b 為0:
但是我們還需要一個方法來評估預測結果的好壞(即預測值和真實值的誤差)。這就要用到損失函數。
損失函數
常用的損失函數有很多種,根據模型的需求來選擇。在本教程中,我們使用誤差平方和作為損失函數。
誤差平方和是求每個預測值和真實值之間的誤差再求和,這個誤差是他們的差值求平方以便我們觀察誤差的絕對值。
訓練的目標是找到一組 W 和 b,使得損失函數最好小,也即預測值和真實值之間的距離最小。
反向傳播
我們已經度量出了預測的誤差(損失),現在需要找到一種方法來傳播誤差,並以此更新權值和偏置。
為了知道如何適當的調整權值和偏置,我們需要知道損失函數對權值 W 和偏置 b 的導數。
回想微積分中的概念,函數的導數就是函數的斜率。
梯度下降法
如果我們已經求出了導數,我們就可以通過增加或減少導數值來更新權值 W 和偏置 b(參考上圖)。這種方式被稱為梯度下降法。
但是我們不能直接計算損失函數對權值和偏置的導數,因為在損失函數的等式中並沒有顯式的包含他們。因此,我們需要運用鏈式求導發在來幫助計算導數。
鏈式法則用於計算損失函數對 W 和 b 的導數。注意,為了簡單起見。我們只展示了假設網路只有 1 層的偏導數。
這雖然很簡陋,但是我們依然能得到想要的結果—損失函數對權值 W 的導數(斜率),因此我們可以相應的調整權值。
現在我們將反向傳播演算法的函數添加到 Python 代碼中
為了更深入的理解微積分原理和反向傳播中的鏈式求導法則,我強烈推薦 3Blue1Brown 的如下教程:
Youtube:https://youtu.be/tIeHLnjs5U8
整合並完成一個實例
既然我們已經有了包括前向傳播和反向傳播的完整 Python 代碼,那麼就將其應用到一個例子上看看它是如何工作的吧。
神經網路可以通過學習得到函數的權重。而我們僅靠觀察是不太可能得到函數的權重的。
讓我們訓練神經網路進行 1500 次迭代,看看會發生什麼。 注意觀察下面每次迭代的損失函數,我們可以清楚地看到損失函數單調遞減到最小值。這與我們之前介紹的梯度下降法一致。
讓我們看看經過 1500 次迭代後的神經網路的最終預測結果:
經過 1500 次迭代訓練後的預測結果
我們成功了!我們應用前向和方向傳播演算法成功的訓練了神經網路並且預測結果收斂於真實值。
注意預測值和真實值之間存在細微的誤差是允許的。這樣可以防止模型過擬合並且使得神經網路對於未知數據有著更強的泛化能力。
下一步是什麼?
幸運的是我們的學習之旅還沒有結束,仍然有很多關於神經網路和深度學習的內容需要學習。例如:
? 除了 Sigmoid 以外,還可以用哪些激活函數
? 在訓練網路的時候應用學習率
? 在面對圖像分類任務的時候使用卷積神經網路
我很快會寫更多關於這個主題的內容,敬請期待!
最後的想法
我自己也從零開始寫了很多神經網路的代碼
雖然可以使用諸如 Tensorflow 和 Keras 這樣的深度學習框架方便的搭建深層網路而不需要完全理解其內部工作原理。但是我覺得對於有追求的數據科學家來說,理解內部原理是非常有益的。
這種練習對我自己來說已成成為重要的時間投入,希望也能對你有所幫助
2. 怎麼選取訓練神經網路時的Batch size
在考慮這個問題時先要明白Batch size的意義。剛開始因為批量梯度下降法容易使得網路陷入局部收斂,並且樣本量太大,訓練速度很慢,因此就提出了隨機梯度下降法。不過當時的SGD演算法中的batch size=1,效果並不好,所以後面就又提出了mini-batch SGD,也就有了這里的batch size。
因此,batch size不能過小,不然每次所利用的樣本量太少,所包含的信息也少,我覺得至少8吧。當然也不能太大,不然就跟批量下降一樣的。所以建議取8~256左右,可以根據樣本量進行調整,當然還取決於你的電腦內存。
3. AlphaGo的神奇全靠它,詳解人工神經網路!
Alphago在不被看好的情況下,以4比1擊敗了圍棋世界冠軍李世石,令其名震天下。隨著AlphaGo知名度的不斷提高,人們不禁好奇,究竟是什麼使得AlphaGo得以戰勝人類大腦?AlphaGo的核心依託——人工神經網路。
什麼是神經網路?
人工神經網路是一種模仿生物神經網路(動物的中樞神經系統,特別是大腦)的結構和功能的數學模型或計算模型。神經網路由大量的人工神經元聯結進行計算。大多數情況下人工神經網路能在外界信息的基礎上改變內部結構,是一種自適應系統。現代神經網路是一種非線性統計性數據建模工具,常用來對輸入和輸出間復雜的關系進行建模,或用來探索數據的模式。
神經網路是一種運算模型,由大量的節點(或稱“神經元”,或“單元”)和之間相互聯接構成。每個節點代表一種特定的輸出函數,稱為激勵函數。每兩個節點間的連接都代表一個對於通過該連接信號的加權值,稱之為權重,這相當於人工神經網路的記憶。網路的輸出則依網路的連接方式,權重值和激勵函數的不同而不同。而網路自身通常都是對自然界某種演算法或者函數的逼近,也可能是對一種邏輯策略的表達。
例如,用於手寫識別的一個神經網路是被可由一個輸入圖像的像素被激活的一組輸入神經元所定義的。在通過函數(由網路的設計者確定)進行加權和變換之後,這些神經元被激活然後被傳遞到其他神經元。重復這一過程,直到最後一個輸出神經元被激活。這樣決定了被讀取的字。
它的構築理念是受到人或其他動物神經網路功能的運作啟發而產生的。人工神經網路通常是通過一個基於數學統計學類型的學習方法得以優化,所以人工神經網路也是數學統計學方法的一種實際應用,通過統計學的標准數學方法我們能夠得到大量的可以用函數來表達的局部結構空間,另一方面在人工智慧學的人工感知領域,我們通過數學統計學的應用可以來做人工感知方面的決定問題(也就是說通過統計學的方法,人工神經網路能夠類似人一樣具有簡單的決定能力和簡單的判斷能力),這種方法比起正式的邏輯學推理演算更具有優勢。
人工神經網路是一個能夠學習,能夠總結歸納的系統,也就是說它能夠通過已知數據的實驗運用來學習和歸納總結。人工神經網路通過對局部情況的對照比較(而這些比較是基於不同情況下的自動學習和要實際解決問題的復雜性所決定的),它能夠推理產生一個可以自動識別的系統。與之不同的基於符號系統下的學習方法,它們也具有推理功能,只是它們是建立在邏輯演算法的基礎上,也就是說它們之所以能夠推理,基礎是需要有一個推理演算法則的集合。
2AlphaGo的原理回頂部
AlphaGo的原理
首先,AlphaGo同優秀的選手進行了150000場比賽,通過人工神經網路找到這些比賽的模式。然後通過總結,它會預測選手在任何位置高概率進行的一切可能。AlphaGo的設計師通過讓其反復的和早期版本的自己對戰來提高神經網路,使其逐步提高獲勝的機會。
從廣義上講,神經網路是一個非常復雜的數學模型,通過對其高達數百萬參數的調整來改變的它的行為。神經網路學習的意思是,電腦一直持續對其參數進行微小的調整,來嘗試使其不斷進行微小的改進。在學習的第一階段,神經網路提高模仿選手下棋的概率。在第二階段,它增加自我發揮,贏得比賽的概率。反復對極其復雜的功能進行微小的調整,聽起來十分瘋狂,但是如果有足夠長的時間,足夠快的計算能力,非常好的網路實施起來並不苦難。並且這些調整都是自動進行的。
經過這兩個階段的訓練,神經網路就可以同圍棋業余愛好者下一盤不錯的棋了。但對於職業來講,它還有很長的路要走。在某種意義上,它並不思考每一手之後的幾步棋,而是通過對未來結果的推算來決定下在哪裡。為了達到職業級別,AlphaGp需要一種新的估算方法。
為了克服這一障礙,研究人員採取的辦法是讓它反復的和自己進行對戰,以此來使其不斷其對於勝利的估算能力。盡可能的提高每一步的獲勝概率。(在實踐中,AlphaGo對這個想法進行了稍微復雜的調整。)然後,AlphaGo再結合多線程來使用這一方法進行下棋。
我們可以看到,AlphaGo的評估系統並沒有基於太多的圍棋知識,通過分析現有的無數場比賽的棋譜,以及無數次的自我對戰練習,AlphaGo的神經網路進行了數以十億計的微小調整,即便每次只是一個很小的增量改進。這些調整幫助AlphaGp建立了一個估值系統,這和那些出色圍棋選手的直覺相似,對於棋盤上的每一步棋都了如指掌。
此外AlphaGo也使用搜索和優化的思想,再加上神經網路的學習功能,這兩者有助於找到棋盤上更好的位置。這也是目前AlphaGo能夠高水平發揮的原因。
3神經網路的延伸和限制回頂部
神經網路的延伸和限制
神經網路的這種能力也可以被用在其他方面,比如讓神經網路學習一種藝術風格,然後再將這種風格應用到其他圖像上。這種想法很簡單:首先讓神經網路接觸到大量的圖像,然後來確認這些圖像的風格,接著將新的圖像帶入這種風格。
這雖然不是偉大的藝術,但它仍然是一個顯著的利用神經網路來捕捉直覺並且應用在其他地方的例子。
在過去的幾年中,神經網路在許多領域被用來捕捉直覺和模式識別。許多項目使用神經這些網路,涉及的任務如識別藝術風格或好的視頻游戲的發展戰略。但也有非常不同的網路模擬的直覺驚人的例子,比如語音和自然語言。
由於這種多樣性,我看到AlphaGo本身不是一個革命性的突破,而是作為一個極其重要的發展前沿:建立系統,可以捕捉的直覺和學會識別模式的能力。此前計算機科學家們已經做了幾十年,沒有取得長足的進展。但現在,神經網路的成功已經大大擴大,我們可以利用電腦攻擊范圍內的潛在問題。
事實上,目前現有的神經網路的理解能力是非常差的。神經網路很容易被愚弄。用神經網路識別圖像是一個不錯的手段。但是實驗證明,通過對圖像進行細微的改動,就可以愚弄圖像。例如,下面的圖像左邊的圖是原始圖,研究人員對中間的圖像進行了微小的調整後,神經網路就無法區分了,就將原圖顯示了出來。
另一個限制是,現有的系統往往需要許多模型來學習。例如,AlphaGo從150000場對戰來學習。這是一個很龐大額度數字!很多情況下,顯然無法提供如此龐大的模型案例。
4. 如何訓練神經網路
1、先別著急寫代碼
訓練神經網路前,別管代碼,先從預處理數據集開始。我們先花幾個小時的時間,了解數據的分布並找出其中的規律。
Andrej有一次在整理數據時發現了重復的樣本,還有一次發現了圖像和標簽中的錯誤。所以先看一眼數據能避免我們走很多彎路。
由於神經網路實際上是數據集的壓縮版本,因此您將能夠查看網路(錯誤)預測並了解它們的來源。如果你的網路給你的預測看起來與你在數據中看到的內容不一致,那麼就會有所收獲。
一旦從數據中發現規律,可以編寫一些代碼對他們進行搜索、過濾、排序。把數據可視化能幫助我們發現異常值,而異常值總能揭示數據的質量或預處理中的一些錯誤。
2、設置端到端的訓練評估框架
處理完數據集,接下來就能開始訓練模型了嗎?並不能!下一步是建立一個完整的訓練+評估框架。
在這個階段,我們選擇一個簡單又不至於搞砸的模型,比如線性分類器、CNN,可視化損失。獲得准確度等衡量模型的標准,用模型進行預測。
這個階段的技巧有:
· 固定隨機種子
使用固定的隨機種子,來保證運行代碼兩次都獲得相同的結果,消除差異因素。
· 簡單化
在此階段不要有任何幻想,不要擴增數據。擴增數據後面會用到,但是在這里不要使用,現在引入只會導致錯誤。
· 在評估中添加有效數字
在繪制測試集損失時,對整個測試集進行評估,不要只繪制批次測試損失圖像,然後用Tensorboard對它們進行平滑處理。
· 在初始階段驗證損失函數
驗證函數是否從正確的損失值開始。例如,如果正確初始化最後一層,則應在softmax初始化時測量-log(1/n_classes)。
· 初始化
正確初始化最後一層的權重。如果回歸一些平均值為50的值,則將最終偏差初始化為50。如果有一個比例為1:10的不平衡數據集,請設置對數的偏差,使網路預測概率在初始化時為0.1。正確設置這些可以加速模型的收斂。
· 人類基線
監控除人為可解釋和可檢查的損失之外的指標。盡可能評估人的准確性並與之進行比較。或者對測試數據進行兩次注釋,並且對於每個示例,將一個注釋視為預測,將第二個注釋視為事實。
· 設置一個獨立於輸入的基線
最簡單的方法是將所有輸入設置為零,看看模型是否學會從輸入中提取任何信息。
· 過擬合一個batch
增加了模型的容量並驗證我們可以達到的最低損失。
· 驗證減少訓練損失
嘗試稍微增加數據容量。
5. 深度神經網路具體的工作流程是什麼樣的
所謂神經網路演算法,就是對人類學習能力的一種模擬演算法。理論認為人的認知模式,處事方式是存儲在神經元與神經元之間的連接上的,稱為「神經元連接權重」,人腦神經布局類似網狀結構,神經元是網的交叉點,權重就是網的連線,這些連線有粗有細,也就是權重的大小不同。而人類的學習能力就是去不斷改變權重的值,從而改變自己的認知模式和處事方式,簡單的說,不同人對同一個外部事物有不同看法,就是因為同樣的初始信號,在不同粗細的神經元連線放大或縮小後,變成了側重點不同的最終信號。最開始的「感知機"只用了2層神經元,即輸入層和輸出層,發現很多問題無法模擬,最著名的就是「異或」問題。 後來聰明的人在輸入層和輸出層之間加了一層神經元叫做隱藏層,3層的神經網路已經可以模擬二維上的任意函數曲線。只不過此時對「連接權重」的訓練過程就變得非常復雜,通常使用一種叫「誤差反傳」的計算方法。參考人腦,人腦大概有億級層數的神經元(當然,人腦是多任務處理器集合,某些特定的任務如人臉識別,只需用到大腦的某個局部)。於是人們會猜想,更多的隱藏層是否會有更高的學習效果。事實證明的確如此,隨著隱藏層數的增加,一些圖片,語音的識別率越來越高。因此,就有了深度神經網路這一概念。但隱藏層數越多訓練過程也越復雜,且誤差會在多層傳遞的時候衰減,導致GradientVanish問題,最終導致訓練結果收斂在局部最優或者難以收斂。後來又有聰明的人不斷改進誤差訓練演算法,神經網路的層數深度越來越大,現在最NB的是微軟的「殘差神經網路」,已經將隱藏層提高至152層。
6. RTX 2060Super可以用作機器學習、神經網路訓練么
當然可以,顯卡能不能用於這些深度學習演算法訓練,主要看有沒有cuda單元。 super的意思只是cuda單元增加了,所以肯定能用,而且比普通版的要好