Ⅰ 回歸效果比bp神經網路好的演算法
在機器學習中,回歸分隱螞析是一種流行的預測建模方法。雖然BP神經網路也是一種強大的工具,但它們的性能並不總是優於其他演算法。
一些比BP神經網路更好的回歸演算法包括:
1. 支持向量機回歸(SVR):採用一種非線性核技術,將數據映射到高維空間中,並找到一個超平面來最小化預測誤差。
2. 隨機森林回歸:該演算法基於多個決策樹模灶段埋型,通過選擇特徵和樣本隨機化來減少過擬燃配合現象。
3. 梯度提升回歸(GBR):類似於隨機森林,但是它使用加權殘差更新模型,以逐步提高預測的准確性。
這些演算法在許多應用程序中顯示出了很好的性能,並且已成為機器學習社區中的主要回歸技術
Ⅱ 隨機森林參數說明
最主要的兩個參數是n_estimators和max_features。
理論上是越大越好,但是計算時間也相應增長。所以,並不是取得越大就會越好,預測效果最好的將會出現在合理的樹個數。
每個決策樹在隨機選擇的這max_features特徵里找到某個「最佳」特徵,使得模型在該特徵的某個值上分裂之後得到的收益最大化。max_features越少,方差就會減少,但同時偏差就會增加。
如果是回歸問題,則max_features=n_features,如果是分類問題,則max_features=sqrt(n_features),其中,n_features 是輸入特徵數。
1.回歸問題的應用場景(預測的結果是連續的,例如預測明天的溫度,23,24,25度)
回歸問題通常是用來預測一個值 ,如預測房價、未來的天氣情況等等,例如一個產品的實際價格為500元,通過回歸分析預測值為499元,我們認為這是一個比較好的回歸分析。一個比較常見的回歸演算法是線性回歸演算法(LR)。另外,回歸分析用在神經網路上,其最上層是不需要加上softmax函數的,而是直接對前一層累加即可。回侍森歸是對真實值的一種逼近預測。
2.分類問題的應用場景(預測的結果是離散的,例如預測明天天氣-陰,晴,雨)
分類問題是用於將事物打上一個標簽,通常結果為離散值。 例如判斷一幅圖片上的動物是一隻貓還是一隻狗,分類通常是建立在回歸之上,分類的最後一層通常要使用softmax函數進行判斷其所屬類別。分類並沒有逼近的概念,最終正確結果只有一個,錯誤的就是錯誤的,不會有相近的概念。最常見的分類方法是邏輯回歸,或者叫邏輯頌晌分類。
其他參數:
如果max_depth=None,節點會擬合到增益為0,或者所有的葉節點含有小於min_samples_split個樣本。如果同時min_sample_split=1, 決策樹會擬合得很深,甚至會過擬合。
如果bootstrap==True,將每次有放回地隨機選取樣本。
只有在extra-trees中,bootstrap=False。
1、隨機森林應用的是Bagging模型,而ET是使用所有的訓練樣本得到每棵決策樹,也就是每棵決策樹應用的是相同的全部訓練樣本;
2、隨機森林是在一個隨機子集內得到最佳分叉屬性,而ET是完全隨機的得到分叉值,從而實現對決策樹進行分叉的。
訓練野談鋒隨機森林時,建議使用cross_validated(交叉驗證),把數據n等份,每次取其中一份當驗證集,其餘數據訓練隨機森林,並用於預測測試集。最終得到n個結果,並平均得到最終結果。
1. 隨機森林演算法幾乎不需要輸入的准備。它們不需要測算就能夠處理二分特徵、分類特徵、數值特徵的數據。隨機森林演算法能完成隱含特徵的選擇,並且提供一個很好的特徵重要度的選擇指標。
2. 隨機森林演算法訓練速度快。性能優化過程剛好又提高了模型的准確性,這種精彩表現並不常有,反之亦然。這種旨在多樣化子樹的子設定隨機特徵,同時也是一種突出的性能優化!調低給定任意節點的特徵劃分,能讓你簡單的處理帶有上千屬性的數據集。(如果數據集有很多行的話,這種方法同樣的也可以適用於行采樣)
3. 隨機森林演算法很難被打敗。針對任何給定的數據集,盡管你常能找到一個優於它的模型(比較典型的是神經網路或者一些增益演算法 boosting algorithm),但這類演算法肯定不多,而且通常建這樣的模型並調試好要比隨機森林演算法模型要耗時的更多。這也是為何隨機森林演算法作為基準模型表現出色的原因。
4. 建立一個差勁的隨機森林模型真的很難!因為隨機森林演算法對指定使用的超參數(hyper-parameters )並不十分敏感。為了要得到一個合適的模型,它們不需要做很多調整。只需使用大量的樹,模型就不會產生很多偏差。大多數的隨機森林演算法的實現方法的參數設置初始值也都是合理的。
5. 通用性。隨機森林演算法可以應用於很多類別的模型任務。它們可以很好的處理回歸問題,也能對分類問題應付自如(甚至可以產生合適的標准概率值)。雖然我從沒親自嘗試,但它們還可以用於聚類 分析問題。
————————————————
原文鏈接:https://blog.csdn.net/jiede1/article/details/78245597
原文鏈接:https://blog.csdn.net/rosefun96/article/details/78833477
Ⅲ 神經網路優缺點,
優點:
(1)具有自學習功能。例如實現圖像識別時,只在先把許多不同的圖像樣板和對應的應識別的結果輸入人工神經網路,網路就會通過自學習功能,慢慢學會識別類似的圖像。
自學習功能對於預測有特別重要的意義。預期未來的人工神經網路計算機將為人類提供經濟預測、市場預測、效益預測,其應用前途是很遠大的。
(2)具有聯想存儲功能。用人工神經網路的反饋網路就可以實現這種聯想。
(3)具有高速尋找優化解的能力。尋找一個復雜問題的優化解,往往需要很大的計算量,利用一個針對某問題而設計的反饋型人工神經網路,發揮計算機的高速運算能力,可能很快找到優化解。
缺點:
(1)最嚴重的問題是沒能力來解釋自己的推理過程和推理依據。
(2)不能向用戶提出必要的詢問,而且當數據不充分的時候,神經網路就無法進行工作。
(3)把一切問題的特徵都變為數字,把一切推理都變為數值計算,其結果勢必是丟失信息。
(4)理論和學習演算法還有待於進一步完善和提高。
(3)神經網路與隨機森林哪個好擴展閱讀:
神經網路發展趨勢
人工神經網路特有的非線性適應性信息處理能力,克服了傳統人工智慧方法對於直覺,如模式、語音識別、非結構化信息處理方面的缺陷,使之在神經專家系統、模式識別、智能控制、組合優化、預測等領域得到成功應用。
人工神經網路與其它傳統方法相結合,將推動人工智慧和信息處理技術不斷發展。近年來,人工神經網路正向模擬人類認知的道路上更加深入發展,與模糊系統、遺傳演算法、進化機制等結合,形成計算智能,成為人工智慧的一個重要方向,將在實際應用中得到發展。
將信息幾何應用於人工神經網路的研究,為人工神經網路的理論研究開辟了新的途徑。神經計算機的研究發展很快,已有產品進入市場。光電結合的神經計算機為人工神經網路的發展提供了良好條件。
神經網路在很多領域已得到了很好的應用,但其需要研究的方面還很多。其中,具有分布存儲、並行處理、自學習、自組織以及非線性映射等優點的神經網路與其他技術的結合以及由此而來的混合方法和混合系統,已經成為一大研究熱點。
由於其他方法也有它們各自的優點,所以將神經網路與其他方法相結合,取長補短,繼而可以獲得更好的應用效果。目前這方面工作有神經網路與模糊邏輯、專家系統、遺傳演算法、小波分析、混沌、粗集理論、分形理論、證據理論和灰色系統等的融合。
參考資料:網路-人工神經網路
Ⅳ Kaggle 快速模型之 Random Forrest 隨機森林
隨機森林 RF 在 Kaggle 大名遠播,稱霸很久。
那麼,我們這里就先聊聊 原因 。以下分析來自 University of San Francisco, CS 碩士課程。
隨機森林(文中記為 RF)有以下 5 個優點:
1。用法 :RF 支持針對連續對象的回歸演算法,也支持針對離散對象的分類演算法。
2。過擬合 :RF 不太容易過擬合,因為 RF 本質上是模型集成(model ensemble),從 Leo Breiman 的理論來看 RF 也不會因為 樹 數量的增加,而導致過擬合,因為這些數都是集合在一起的單稿升獨模型,效果不好的樹會被 downvote。但是使用 out of bagging 的方法是推薦來幫助 RF 減少過擬合的方法,就是保留一個 validation 數據集在多個模型中選取評價指標更好的模型。
3。范化能力 :RF 的范化能力也比較好,比較能夠處理異常值,不太容易出現波動。
4。數據分布要求 :不像線性模型,RF 也不要求數據分布符合正態分布,來得到統計結果上的近似。因此任意的數據分布都可以使用 RF。
5。特徵工程 :對於一些簡單的線性模型,為了增加特徵,我們往往需要增加 這樣的特徵來作為模型的輸入,幫助模型構建更多的特徵。但是在 RF 中,這些基礎的特徵工程是不必要的。但是,需要記得,額高階特徵工程可以幫助增加 RF 的精度(類似日期上的處理,提取出月份,周數等)。
6。數據預處理 :類似神經網路需要對數據作預處理來得到 0 ~ 1 之間的數據分布,在 RF 這里往往都不太需要,因此 RF 對於數據的要求也不高。
講完了 RF 的特性之後,我們似乎發現 RF 是鍵缺老萬能,但是他真的這么萬能麻?我們再來看看 機器學習屆廣為流傳的兩個理論,在 RF 上是不是也會存在。
a。高維詛咒 :這個理論是說隨著數據緯度的增加,即數據特徵的增加,所有的數據都會十分的扮段分散,使得計算數據點之間的距離變得沒有意義,也就是說模型的預測變得不可能實現。當然理論上的確是可以如此證明,這個理論在數學上完全沒有問題。但是到了實際的世界上,我們的所有數據其實互相之間是存在依賴的,因此你會發現,這個高維距離始終有意義,並且真實地提供模型預測。
b。無免費的午餐理論 :這個理論名字就很明顯,沒有一個模型可以適用於各種數據。當然,從數學理論上可以驗證這個結論。但是在實際的工作中,RF 是相對比較全面的一個模型,我們總是可以用他先作出一個 benchmark ,再來優化。尤其是 Kaggle 等賽事上,對模型的精度要求十分明確,我們無需在數據的其他層面上(如收集、確認等)作任何的工作。RF 是很適合開始的模型。
那下節內容,我們就可以說說理論以外的操作了。
Ⅳ 最小二乘法、回歸分析法、灰色預測法、決策論、神經網路等5個演算法的使用范圍及優缺點是什麼
最小二乘法:通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。優點:實現簡單,計算簡單。缺點:不能擬合非線性數據.
回歸分析法:指的是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。在大數據分析中,回歸分析是一種預測性的建模技術,它研究的是因變數(目標)和自變數(預測器)之間的關系。這種技術通常用於預測分析,時間序列模型以及發現變數之間的因果關系。優點:在分析多因素模型時,更加簡單和方便,不僅可以預測並求出函數,還可以自己對結果進行殘差的檢驗,檢驗模型的精度。缺點:回歸方程式只是一種推測,這影響了因子的多樣性和某些因子的不可測性,使得回歸分析在某些情況下受到限制。
灰色預測法:
色預測法是一種對含有不確定因素的系統進行預測的方法 。它通過鑒別系統因素之間發展趨勢的相異程度,即進行關聯分析,並對原始數據進行生成處理來尋找系統變動的規律,生成有較強規律性的數據序列,然後建立相應的微分方程模型,從而預測事物未來發展趨勢的狀況。它用等時間距離觀測到的反應預測對象特徵的一系列數量值構造灰色預測模型,預測未來某一時刻的特徵量,或者達到某一特徵量的時間。優點:對於不確定因素的復雜系統預測效果較好,且所需樣本數據較小。缺點:基於指數率的預測沒有考慮系統的隨機性,中長期預測精度較差。
決策樹:在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。優點:能夠處理不相關的特徵;在相對短的時間內能夠對大型數據源做出可行且效果良好的分析;計算簡單,易於理解,可解釋性強;比較適合處理有缺失屬性的樣本。缺點:忽略了數據之間的相關性;容易發生過擬合(隨機森林可以很大程度上減少過擬合);在決策樹當中,對於各類別樣本數量不一致的數據,信息增益的結果偏向於那些具有更多數值的特徵。
神經網路:優點:分類的准確度高;並行分布處理能力強,分布存儲及學習能力強,對雜訊神經有較強的魯棒性和容錯能力,能充分逼近復雜的非線性關系;具備聯想記憶的功能。缺點:神經網路需要大量的參數,如網路拓撲結構、權值和閾值的初始值;不能觀察之間的學習過程,輸出結果難以解釋,會影響到結果的可信度和可接受程度;學習時間過長,甚至可能達不到學習的目的。
Ⅵ 神經網路演算法 遺傳演算法 模糊演算法 哪個好
沒有哪種演算法更好的說法,因為每種演算法都有自己的優勢。只能說某種演算法在處理某種問題時,效果更好更合適。
神經網路不能說是一種演算法,它是一種數學網路結構,各神經元的權值、閾值是用某種訓練演算法計算出來的。神經網路適用於非線性系統,可用於難以用數學表達式來描述的系統。
遺傳演算法在全局尋優問題上效果很好,因其收斂速度較快,且不易陷入局部極小點。其中實數編碼法適合與神經網路結合,例如GA-BP神經網路。
模糊演算法可將一些難以量化的參數模糊處理,並且演算法較簡單,尤其是適用於專家經驗佔主要地位的系統,因為添加一條專家經驗只需往規則庫里添加一條語句即可。用這種演算法要注意區間不能劃得太寬,否則演算法太不精確。
Ⅶ 隨機森林通俗理解
隨機森林通俗理解是:
隨機森林分解開來就是「隨機」和「森林」。「隨機」的含義我們之後講,我們先說「森林」,森林是由很多棵樹組成的,因此隨機森林的結果是依賴於多棵決策樹的結果。
隨機森林是現在比較流行的一個演算法。對於回歸和分類問題有很好的效果。大家有可能早磨有過這樣的經歷,辛辛苦苦搭好神經網路,最後預測的准確帶亮率還不如隨機森林。
Ⅷ 隨機森林和神經網路哪個演算法更好
隨機森林和神經網路各有各的好處
Ⅸ 演算法太多挑花眼
演算法太多挑花眼?教你如何選擇正確的機器學習演算法
機器學習演算法雖多,卻沒有什麼普適的解決方案。決策樹、隨機森林、樸素貝葉斯、深度網路等等等等,是不是有時候覺得挑花了眼呢?福利來啦~本文將教你慧眼識精,快速挑選出滿意的演算法!
機器學習既是一門科學,也是一種藝術。縱觀各類機器學習演算法,並沒有一種普適的解決方案或方法。事實上,有幾個因素會影響你對機器學習演算法的選擇。
有些問題是非常特別的,需要用一種特定的解決方法。例如,如果你對推薦系統有所了解,你會發現它是一類很常用的機器學習演算法,用來解決一類非常特殊的問題。而其它的一些問題則非常開放,可能需要一種試錯方法(例如:強化學習)。監督學習、分類、回歸等問題都是非常開放的,可以被用於異常檢測或建立更加廣泛的預測模型。
此外,我們在選擇機器學習演算法時所做出的一些決定與演算法的優化或技術層面關系並不大,而更多地與業務決策相關。下面,讓我們一起來看看有哪些因素能幫你縮小機器學習演算法的選擇范圍。
數據科學過程
在你開始研究不同的機器學習演算法前,你需要對自己擁有的數據、面對的問題及相關約束有清晰的了解。
理解你的數據
當我們決定使用哪種演算法時,我們所擁有的數據的類型和形態起著關鍵性的作用。有些演算法可以利用較小的樣本集合工作,而另一些演算法則需要海量的樣本。特定的演算法對特定類型的數據起作用。例如,樸素貝葉斯演算法對處理待分類的輸入特別有效,但是對於缺失值則一點都不敏感。
因此,你需要做到:
了解你的數據
1. 查看總結統計和數據可視化的結
百分比可以幫助你識別大多數數據的范圍
平均數和中位數可以描述集中趨勢
相關系數可以指出強的關聯性
2. 數據可視化
箱形圖可以識別出異常值
密度圖和直方圖可以顯示出數據的散布情況
散點圖可以描述二元關
數據清洗
1. 處理缺失值。缺失的數據對於某些模型的影響比對其它模型更大。即使是對於那些被用於處理缺失數據的模型來說,它們也可能對缺失數據很敏感(某些變數的缺失數據可能導致預測性能變差)
2. 選擇處理異常值的方法
異常值在多維數據中十分常見。
有些模型對異常值的敏感性比其它模型要低。通常而言,樹模型對於異常值的存在不太敏感。然而回歸模型、或者任何試圖使用方程的模型都會受到異常值的嚴重影響。
異常值可能是糟糕的數據收集造成的,也可能是合理的極值。
3. 數據需要被聚合嗎?
數據增強
1. 特徵工程是從原始數據中產生能夠被用於建模的數據的過程,可以起到以下幾種作用:
使模型更容易被解釋(如數據分箱(binning))
捕獲更復雜的關系(如神經網路)
減少數據冗餘並降低數據維度(如主成分分析(PCA))
重新縮放變數(如標准化或歸一化)
2. 不同的模型可能有不同的特徵工程的要求。有的模型有內置的特徵工程。
對問題進行分類
下一步是對問題進行分類。這是一個需要分兩步實現的過程。
1. 根據輸入分類:
如果你擁有的是帶標簽的數據,那麼這就是一個監督學習問題。
如果你擁有的是未標注過的數據,並且希望從中找到有用的結構,那麼這就是一個無監督學習問題。
如果你想要通過與環境的交互來優化一個目標函數,那麼這就是一個強化學習問題。
2. 根據輸出分類:
如果模型的輸出是一個(連續的)數字,那麼這就是一個回歸問題。
如果模型的輸出是一個類別,那麼這就是一個分類問題。
如果模型的輸出是一組用輸入數據劃分出的簇,那麼這就是一個聚類問題。
你想發現一個異常點嗎?此時你面對的就是一個異常檢測問題。
理解你要滿足的約束條
你需要考慮你能夠存儲數據的容量有多大?這取決於系統的存儲容量,你可能無法存儲若干 GB 大小的分類、回歸模型或者若干 GB 的用於聚類分析的數據。例如,在嵌入式系統中,你就會面臨這種情況。
對預測過程的速度是否有要求?在實時應用中,很顯然,盡快得出預測結果是十分重要的。例如,在自動駕駛問題中,應用必須盡可能快地對道路標志進行分類,以免發生交通事故。
對學習過程的速度是否有要求?在某些情況下,快速訓練模型是十分必要的:有時,你需要使用不同的數據集快速地實時更新你的模型。
尋找可用的演算法
當對自己的任務環境有了一個清晰的認識後,你就可以使用你所掌握的工具確定適用於待解決的問題並切實可行的演算法。一些影響你選擇模型的因素如下:
模型是否滿足業務目標
模型需要多少數據預處理工作
模型有多准確
模型的可解釋性如何
模型運行的速度有多快:構造模型需要多久?模型做出預測需要多長時間?
模型的可伸縮性如何
模型的復雜度是一個影響演算法選擇的重要標准。一般來說,一個更復雜的模型具備下列特徵:
它依賴於更多的特徵進行學習和預測(例如,使用十個而不是兩個特徵來預測目標)
它依賴於更復雜的特徵工程(例如,使用多項式特徵、交互特徵或主成分)
它有更大的計算開銷(例如,需要一個由 100 棵決策樹組成的隨機森林,而不是一棵單獨的決策樹)
除此之外,同樣的機器學習演算法可以基於參數的個數和某些超參數的選擇而變得更加復雜。例如:
回歸模型可以擁有更多的特徵,或者多項式項和交互項。
決策樹可以擁有更大或更小的深度。
將相同的演算法變得更加復雜增加了發生過擬合的幾率。
常用的機器學習演算法
線性回歸
這可能是機器學習中最簡單的演算法。例如,當你想要計算一些連續值,而不是將輸出分類時,可以使用回歸演算法。因此,當你需要預測一個正在運行的過程未來的值時,你可以使用回歸演算法。然而,當特徵冗餘,即如果存在多重共線性(multicollinearity)時,線性回歸就不太穩定。
在下列情況下可以考慮使用線性回歸:
從一個地方移動到另一個地方所需的時間
預測下個月某種產品的銷售情況
血液中的酒精含量對協調能力的影響
預測每個月禮品卡的銷售情況,並改善年收入的估算
Logistic 回歸
Logistic 回歸執行二進制分類,因此輸出二值標簽。它將特徵的線性組合作為輸入,並且對其應用非線性函數(sigmoid),因此它是一個非常小的神經網路的實例。
logistic回歸提供了許多方法對你的模型進行正則化處理,因此正如在樸素貝葉斯演算法中那樣,你不必擔心你的特徵是否相關。該模型還有一個很好的概率化的解釋。不像在決策樹或者支持向量機中那樣,你可以很容易地更新你的模型以獲取新的數據。如果你想要使用一個概率化的框架,或者你希望在未來能夠快速地將更多的訓練數據融合到你的模型中,你可以使用 logistic 回歸演算法。logistic 回歸還可以幫助你理解預測結果背後起作用的因素,它不完全是一個黑盒方法。
在下列情況下可以考慮使用 logistic 回歸演算法:
預測客戶流失
信用評分和欺詐檢測
評價市場營銷活動的效果
決策樹
決策樹很少被單獨使用,但是不同的決策樹可以組合成非常高效的演算法,例如隨機森林或梯度提升樹演算法。
決策樹很容易處理特徵交互,並且決策樹是一種非參數模型,所以你不必擔心異常值或者數據是否是線性可分的。決策樹演算法的一個缺點是,它們不支持在線學習,因此當你要使用新的樣本時,你不得不重新構建決策樹。決策樹的另一個缺點是,它很容易發生過擬合,而這就是像隨機森林(或提升樹)這樣的集成學習方法能夠派上用場的地方。決策樹也需要大量的內存空間(擁有的特徵越多,你的決策樹可能會越深、越大)
決策樹能夠很好地幫助你在諸多行動路徑中做出選擇:
做出投資決策
預測客戶流失
找出可能拖欠銀行貸款的人
在「建造」和「購買」兩種選擇間進行抉擇
銷售主管的資質審核
K-均值
有時,你完全沒有數據的標簽信息,並且你的目的是根據對象的特徵來為其打上標簽。這種問題被稱為聚類任務。聚類演算法可以在這種情況下被使用:例如,當你有一大群用戶,你希望根據他們共有的一些屬性將其劃分到一些特定的組中。
如果在你的問題聲明中有這樣的問題:例如,找出一群個體的組織形式,或將某些東西分組,或找出特定的組。這時,你就應該使用聚類演算法。
該方法最大的缺點是,K-均值演算法需要提前知道你的數據會有多少簇,因此這可能需要進行大量的試驗去「猜測」我們最終定義的簇的最佳個數——K。
主成分分析(PCA)
主成分分析能夠對數據進行降維。有時,你擁有各種各樣的特徵,這些特徵之間的相關性可能很高,而模型如果使用如此大量的數據可能會產生過擬合現象。這時,你可以使用主成分分析(PCA)技術。
主成分分析(PCA)能夠起作用的關鍵因素是:除了低維的樣本表徵,它還提供了各種變數的一種同步的低維表徵。同步的樣本和變數的表徵提供了一種能夠可視化地找到能夠表示一組樣本的特徵的變數的方法。
支持向量機
支持向量機(SVM)是一種在模式識別和分類問題中被廣泛應用的監督機器學習技術——當你的數據恰好有兩類時。
支持向量機准確率高,對於防止過擬合很好的理論保障。當你使用一個合適的核函數時,即使你的數據在基(低維)特徵空間中是線性不可分的,他們也可以很好地工作。支持向量機在文本分類問題中非常流行,在該問題中,輸入是一個維度非常高的空間是很正常的。然而,SVM 是一種內存密集型演算法,它很難被解釋,並且對其進行調優十分困難。
在下列現實世界的應用中,你可以使用支持向量機:
發現患有糖尿病等常見疾病的人
手寫字元識別
文本分類——將文章按照話題分類
股票市場價格預測
樸素貝葉斯
這是一種基於貝葉斯定理的分類技術,它很容易構建,非常適用於大規模數據集。除了結構簡單,據說樸素貝葉斯的表現甚至比一些復雜得多的分類方法更好。當 CPU 和內存資源有限時,樸素貝葉斯演算法也是一個很好的選項。
樸素貝葉斯非常簡單,你僅僅是在做大量的計數工作。如果樸素貝葉斯的條件獨立假設確實成立,樸素貝葉斯分類器的收斂速度會比 logistic 回歸這樣的判別模型更快,因此需要的訓練數據更少。即使樸素貝葉斯的假設不成立,樸素貝葉斯分類器往往也能很好地完成任務。如果你想使用一種快速的、簡單的、性能也不錯的模型,樸素貝葉斯是一個很好的選擇。這種演算法最大的缺點就是它不能學習到特徵之間的相互作用。
在下列真實世界的應用中,你可以使用樸素貝葉斯:
情感分析和文本分類
類似於 Netflix、Amazon 這樣的推薦系統
識別垃圾郵件
人臉識別
隨機森林
隨機森林是一種決策樹的集成方法。它能夠同時解決具有大規模數據集的回歸問題和分類問題,還有助於從數以千計的輸入變數中找出最重要的變數。隨機森林具有很強的可伸縮性,它適用於任何維數的數據,並且通常具有相當不錯的性能。此外,還有一些遺傳演算法,它們可以在具有最少的關於數據本身的知識的情況下,很好地擴展到任何維度和任何數據上,其中最簡單的實現就是微生物遺傳演算法。然而,隨機森林學習的速度可能會很慢(取決於參數設置),並且這種方法不能迭代地改進生成模型。
在下列現實世界的應用中,你可以使用隨機森林:
預測高危患者
預測零件在生產中的故障
預測拖欠貸款的人
神經網路
神經網路中包含著神經元之間連接的權重。這些權重是平衡的,逐次對數據點進行學習。當所有的權重都被訓練好後,如果需要對新給定的數據點進行回歸,神經網路可以被用於預測分類結果或一個具體數值。利用神經網路,可以對特別復雜的模型進行訓練,並且將其作為一種黑盒方法加以利用,而在訓練模型之前,我們無需進行不可預測的復雜特徵工程。通過與「深度方法」相結合,甚至可以採用更加不可預測的模型去實現新任務。例如,最近人們已經通過深度神經網路大大提升了物體識別任務的結果。深度學習還被應用於特徵提取這樣的非監督學習任務,也可以在人為干預更少的情況下,從原始圖像或語音中提取特徵。
另一方面,神經網路很難被解釋清楚,其參數設置也復雜地讓人難以置信。此外,神經網路演算法也都是資源密集型和內存密集型的。
SCIKIT 參考手冊
Scikit learning 為大家提供了一個非常深入的、解釋地很清楚的流程圖,它能夠幫助你選擇正確的演算法。我認為此圖十分方便。
結論
一般來說,你可以根據上面介紹的要點來篩選出一些演算法,但是要想在一開始就知道哪種方法最好是很難的。你最好多迭代幾次選擇演算法的過程。將你的數據輸入給那些你確定的潛在優秀機器學習演算法,通過並行或串列的方式運行這些演算法,最終評估演算法性能,從而選擇出最佳的演算法。
在最後,我想告訴你:為現實生活中的問題找到正確的解決方案,通常不僅僅是一個應用數學方法的問題。這要求我們對業務需求、規則和制度、相關利益者的關注點有所了解,並且具備大量的專業知識。在解決一個機器學習問題的同時,能夠結合並平衡這些問題是至關重要的,那些能做到這一點的人可以創造最大的價值。
Ⅹ 隨機森林演算法是什麼
隨機森林是一種比較新的機器學習模型。
經典的機器學習模型是神經網路,有半個多世紀的歷史了。神經網路預測精確,但是計算量很大。上世紀八十年代Breiman等人發明分類樹的演算法(Breiman et al. 1984),通過反復二分數據進行分類或回歸,計算量大大降低。
2001年Breiman把分類樹組合成隨機森林(Breiman 2001a),即在變數(列)的使用和數據(行)的使用上進行隨機化,生成很多分類樹,再匯總分類樹的結果。隨機森林在運算量沒有顯著提高的前提下提高了預測精度。
隨機森林對多元共線性不敏感,結果對缺失數據和非平衡的數據比較穩健,可以很好地預測多達幾千個解釋變數的作用(Breiman 2001b),被譽為當前最好的演算法之一(Iverson et al. 2008)。
隨機森林優點:
隨機森林是一個最近比較火的演算法,它有很多的優點:
a、在數據集上表現良好,兩個隨機性的引入,使得隨機森林不容易陷入過擬合。
b、在當前的很多數據集上,相對其他演算法有著很大的優勢,兩個隨機性的引入,使得隨機森林具有很好的抗雜訊能力。
c、它能夠處理很高維度(feature很多)的數據,並且不用做特徵選擇,對數據集的適應能力強:既能處理離散型數據,也能處理連續型數據,數據集無需規范化。