機器學習算法核心思想總結

一.樸素貝葉斯

1.分類理論

? ? ? ? 樸素貝葉斯是一種基于貝葉斯定理和特征條件獨立性假設的多分類的機器學習方法,所謂貝葉斯指的是:樸素貝葉斯分類器是通過比較類后驗概率大小,將樣本分到類后驗概率最大的類別中,因此是一種貝葉斯方法;所謂樸素指的是:類后驗概率是通過先驗概率分布和條件概率分布求得,先驗概率分布就是每個類的先驗概率,條件概率分布即在給定不同類別的情況下,特征向量的分布,由于對于特征向量是高維的情況下,估計條件概率分布有一個指數級的參數,因此其有一個條件獨立性假設:在給定類別的情況下,用于分類的各個特征之間都是條件獨立的。

? ? ? ? 通過學習類先驗概率分布和條件概率分布可學習到聯合概率分布,因此樸素貝葉斯是一種生成方法,是通過訓練數據集學習聯合概率分布,學習數據生成的機制。

2.參數估計

? ? ? ? 其參數估計方法有極大似然估計法和貝葉斯估法,在極大似然估計中,類先驗概率是通過求訓練數據集中每個類的樣本數占樣本總數的比例,條件概率分布是用所有的特征的不同取值組合下的樣本數占比除以每個類別的樣本數占比,但是極大似然估計存在著缺點,也許會出現所要估計的概率為0的情況,這時會影響到后驗概率的計算結果,使分類產生偏差,比如說是在給定類別條件下某個特征取值的概率為0,那么這個類別下的所有特征的聯合條件概率為0,但是這明顯有問題,因為如果凡是某個特征取值概率為0,條件概率就為0,最極端的情況可能會出現所有的類后驗概率都為0,解決這一問題的方法是采用貝葉斯估計。

? ? ? ?在貝葉斯估計中,是對每個要估計的概率的分子上都加上一個正數λ,這樣對于原來概率為0的情況,就會使得概率不為0,很明顯,滿足概率的非負性,為了滿足概率的正則性,對于類先驗概率的估計,在分母上加上Kλ,對于每個特征的條件概率估計,在分母上加上Sj.λ,Sj是這個特征的所有可能取值,當λ=0,就是極大似然估計,當λ=1,就是拉普拉斯平滑,很顯然其滿足非負性和正則性,表明其確為一種概率分布。

3.模型特點

(1)優點

1.樸素貝葉斯模型發源于古典數學理論,有著堅實的數學基礎,以及穩定的分類效率,貝葉斯分類提供了一個無法獲得的黃金標準;

2.?NBC模型所需估計的參數很少,對缺失數據不太敏感,算法也比較簡單,由于假設給定已知類時各個特征是條件獨立的,故大大減少了條件概率的數量,即減少了我們估計的參數的數量,樸素貝葉斯學習與預測大為簡化,因而樸素貝葉斯法高效,且易于實現;

3.對小規模的數據表現很好,適合多分類任務,適合增量式訓練。

(2)缺點

? ? ? 理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,因此對輸入數據的表達形式很敏感,這給NBC模型的正確分類帶來了一定影響,在屬性個數比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時,NBC模型的性能最為良好。

二.KNN算法

1.分類理論

(1)總述

? ? ?K近鄰法是一種基本的分類和回歸方法,這里我們只探討分類問題中的k近鄰法。

? ? ?K近鄰法是一種可以用于多類分類的機器學習方法,K近鄰法不具有顯示的學習過程,是給定帶有類標記的訓練數據,對于新的樣本,根據其K個最近鄰的訓練樣本的類別,利用多數表決的原則來預測類別,其三個基本要素是:k值的選擇,距離度量,分類決策規則

? ? K近鄰法中,當訓練集,k值,距離度量及分類決策規則確定后,對于任何一個新的輸入實例,它所屬的類唯一的確定

KNN即最近鄰算法的主要過程

1.計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);

2.對上面所有的距離值進行排序;

3.選前k個最小距離的樣本;

4.根據這k個樣本的標簽進行投票,得到最后的分類類別;

?(2)距離度量

? ? ? 特征空間中的兩個實例點的距離是兩個實例點相似程度的反映,k近鄰模型的特征空間一般是n維實數向量空間,使用的距離是歐氏距離,但也可以是其他距離,如更一般的Lp距離或Minkowski距離

設特征空間是n維實數向量空間

Lp距離定義為

當p=2時,稱為歐式距離;

p=1時,稱為曼哈頓距離,也叫城市距離;

當p=無窮,切比雪夫距離,它是各個坐標距離的最大值

(3)k值的選擇

? ? ? ?對于真實的數據,后驗條件概率分布是未知的,但是貝葉斯分類提供了一個無法獲得的黃金標準,很多方法都試圖估計這個條件概率,對于一個給定的點,KNN是用其周圍最近的k個點中每一類點的數目占這K個點的比例作為每一類的后驗概率,盡管很簡單,但是KNN決策邊界經常驚奇的接近于最優貝葉斯決策邊界。

? ? ? 當然了,K的選擇對KNN分類器也會有巨大的影響:

? ? ? 當K值較小的時候,相當于用較小的鄰域中的訓練實例進行預測,“學習”的近似誤差會減小,只有與輸入實例較近的(相似的)訓練實例才會對預測結果起作用,但缺點是“學習”的估計誤差會增大,預測結果會對近鄰的實例點非常敏感,如果較近的實例點恰好是噪聲,預測就會出錯,k值比較小就意味著整體模型變得復雜,決策邊界會太靈活,容易發生過擬合,對應的分類器是低偏差高方差;

? ? ? 當K值較大時,就相當于用較大的鄰域中的訓練實例進行預測,其優點學習”的估計誤差會減小,較多的訓練實例能夠減小噪聲對預測的影響,會造成低方差,但缺點是學習的近似誤差會增大,與輸入實例點不近的訓練實例也會對預測結果起作用,會造成高偏差,k值的增大就意味著整體的模型變得簡單但會使類別之間的界限變得模糊,容易發生欠擬合,對應的分類器是低方差高偏差

? ? ? ?k的選擇合適的話,那么決策邊界就會接近于貝葉斯邊界,一個較好的K值可通過各種啟發式技術來獲取,比如:交叉驗證。k的選擇是根據測試誤差最小的原則如果k=N,那么無論輸入實例是什么,都將簡單的預測它屬于在訓練實例中最多的類,這時,模型過于簡單,完全忽略訓練實例中的大量有用信息,是不可取的

(4)分類決策規則

多數表決原則等價于經驗風險最小化

2.KNN算法的特點

(1)優點:

1.思想簡單,理論成熟,既可以用來做分類也可以用來做回歸;

2.可用于非線性分類;

3.訓練時間復雜度為O(n2);

4.準確度高,對數據沒有假設,在K值合適的情況下對outlier不敏感;

(2)缺點:

1.樣本不平衡問題(即有些類別的樣本數量很多,而其它樣本的數量很少);

2.計算量大;

3.需要大量的內存;

3.KNN的改進分析

(1)樣本不平衡問題

? ? ? ?當樣本不平衡時,即:一個類的樣本容量很大,而其他類樣本數量很小時,很有可能導致當輸入一個未知樣本時,該樣本的K個鄰居中大數量類的樣本占多數。 但是這類樣本并不接近目標樣本,而數量小的這類樣本很靠近目標樣本。這個時候,我們有理由認為該位置樣本屬于數量小的樣本所屬的一類,但是,KNN卻不關心這個問題,它只關心哪類樣本的數量最多,而不去把距離遠近考慮在內

? ? ? 因此,我們可以采用權值的方法來改進。和該樣本距離小的鄰居權值大,和該樣本距離大的鄰居權值則相對較小,由此,將距離遠近的因素也考慮在內,避免因一個樣本過大導致誤判的情況。

(2)計算量大

? ? ? 從算法實現的過程可以發現,該算法存兩個嚴重的問題,第一個是需要存儲全部的訓練樣本,第二個是計算量較大,因為對每一個待分類的樣本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點。

? ? ?針對計算量大的問題, KNN算法的改進是分組快速搜索近鄰法,其基本思想是:將樣本集按近鄰關系分解成組,給出每組質心的位置,以質心作為代表點,和未知樣本計算距離,選出距離最近的一個或若干個組,再在組的范圍內應用一般的KNN算法。由于并不是將未知樣本與所有樣本計算距離,故該改進算法可以減少計算量,但并不能減少存儲量。

(3)需要大量的內存

? ? ? 使用K-近鄰算法必須保存所有訓練數據,如果數據很大,占用空間很大。而且,對一個樣本分類,必須計算其與所有訓練樣本集中的樣本的距離,這可能會非常耗時。針對這兩個方面的問題,k-近鄰的改進算法為kd樹。

4.kd樹

(1)引入

? ? ? 實現k近鄰法時,主要考慮的是如何對訓練數據進行快速k近鄰搜索,這點在特征空間維數大及訓練數據容量大時尤其必要

? ? ? K近鄰法的最簡單的實現方法是線性掃描,這時要計算輸入實例與每一個訓練實例的距離,當訓練集很大時,計算非常耗時,這種方法是不可行的,為了提高k近鄰搜索的效率,可以考慮使用特殊的結構存儲訓練數據,以減少計算距離的次數,具體方法有很多,下面介紹kd樹

(2)kd樹的介紹

①kd樹介紹

? ? ? kd樹是一種對k維空間中的實例點進行存儲以便對其進行快速檢索的樹形數據結構,kd樹是二叉樹,表示對k維空間的一個劃分,構造kd樹相當于不斷地用垂直于坐標軸的超平面將k維空間進行切分,構成一系列的k維超矩形區域,kd樹的每個結點對應于一個k維超矩形區域

? ? ? 類比于二分查找,把二分查找中的數據點換成k維數據點,這樣的劃分就變成了用超平面對k維空間的劃分。空間劃分就是對數據點進行分類,“挨得近”的數據點就在一個空間里面。KD樹中每個節點是一個向量,和二叉樹按照數的大小劃分不同的是,KD樹每層需要選定向量中的某一維,然后根據這一維按左小右大的方式劃分數據。

在構建KD樹時,關鍵需要解決2個問題

Ⅰ選擇向量的哪一維進行劃分;

? ??? ?通常,依次選擇坐標軸對空間切分?也可以是選擇隨機選擇某一維或按順序選擇,但是更好的方法應該是在數據比較分散的那一維進行劃分(分散的程度可以根據方差來衡量)。方差越大,說明這個維度上的數據越不集中(稀疏、分散),也就說明了它們就越不可能屬于同一個空間,因此需要在這個維度上進行劃分。

Ⅱ如何劃分數據。

? ? ? 好的劃分方法可以使構建的樹比較平衡,可以每次選擇中位數來進行劃分,選擇訓練實例點在選定坐標軸上中位數為切分點,這樣得 到的kd樹是平衡的,注意,平衡的kd樹搜索時效率最優的(平衡二叉樹:是一顆高度平衡的二叉排序樹,它要么是一棵空樹,要么其左子樹和右子樹的深度之差的絕對值不超過1,且它的左子樹和右子樹都是平衡二叉樹)。

③算法(構造平衡kd樹)

Ⅰ開始:構造根節點

選擇切分坐標軸和切分點:根節點對應于包含訓練數據集的K維空間的超矩形區域,選擇x1為坐標軸,以訓練數據集中所有的實例的x1坐標的中位數為切分點

切分:將根節點對應的超矩形切分為兩個子區域,切分由通過切分點并與坐標軸x1垂直的超平面實現,由根節點生成深度為1的左右子節點:左節點對應坐標小于切分點的子區域,右子節點對應于坐標大于切分點的子區域

保存根結點:將落在切分超平面上的實例點保存在根節點

Ⅱ重復:對深度為j的結點

ⅰ選擇切分坐標軸和切分點:選擇xl為切分點的坐標軸,l=j(mod k)+1,以該結點的區域中所有實例的xl坐標的中位數作為切分點

ⅱ切分:將該節點對應的超矩形區域切分為兩個子區域,切分由通過切分點并與坐標軸xl垂直的超平面實現,由該結點生成深度為j+1的左右子節點,左子節點對應xl小于切分點的子區域,右子節點對應xl坐標大于切分點的子區域

ⅲ保存結點:將落在切分超平面上的實例點保存在該結點

Ⅲ確定迭代停止條件

直到兩個子區域上沒有實例點存在時停止,從而形成kd樹的區域劃分

④搜索kd樹

? ? ? 下面介紹如何利用kd樹進行k近鄰搜索,可以看到,利用kd樹可以省去對大部分數據點的搜索,從而減少搜索的計算量,這里以最近鄰為例加以敘述,同樣的方法可以應用到k近鄰

用kd樹的最近鄰搜索:

輸入:?已構造的kd樹;目標點x;

輸出:x的最近鄰。

(1)在kd樹中找出包含目標點x的葉結點

? ? ?從根結點出發,遞歸的向下訪問kd樹。若目標點當前維的坐標值小于切分點的坐標值,則移動到左子結點,否則移動到右子結點。直到子結點為葉結點為止(搜尋的迭代停止條件是當前移動到的目標區域的左右子節點為None)

(2)以此葉結點為“當前最近點”(可用于設置最近距離的初始值)

(3)遞歸的向上回退,在每個結點進行以下操作:

(a)如果該結點保存的實例點比當前最近點距目標點更近,則以該實例點為“當前最近點”;(在實際代碼實現的時候只需在搜尋的時候搜尋當前最近點的父節點的左右節點即可)

(b)當前最近點一定存在于該結點一個子結點對應的區域。

? ? ? 檢查該子結點的父結點的另一個子結點對應的區域是否有更近的點。具體的,檢查另一個子結點對應的區域是否與以目標點為球心、以目標點與“當前最近點”間的距離為半徑的超球體相交。如果相交,可能在另一個子結點對應的區域內存在距離目標更近的點,移動到另一個子結點。(這里的移動的意思就是說更新當前的最近點)

? ? ?接著,遞歸的進行最近鄰搜索。如果不相交,向上回退。

(4)當回退到根結點時,搜索結束。最后的“當前最近點”即為x的最近鄰點

由于搜索被限制在空間局部區域上,效率大為提高

? ? ? 如果實例點是隨機分布的,kd樹搜索的平均計算復雜度是O(logN),這里N是訓練實例數。kd樹更適用于訓練實例數遠大于空間維數時的k近鄰搜索。當空間維數接近訓練實例數時,它的效率會迅速下降,幾乎接近線性掃描,因為掃描次數等于給定目標值所在的葉節點在二叉排序樹的層數,這個層數是由特征向量的維數決定的,因此當空間維數很大時,效率會下降

二叉排序樹是既可以實現插入和刪除的效率提高,也可以比較高效率的實現查找的算法,在kd樹中,主要是為了加速k近鄰的搜索,提高查找效率,就不用每次都計算新的實例與所有訓練樣本的距離了

三.決策樹

? ? ? 決策樹是通過建立一個樹形結構來存儲訓練數據,相當于把特征空間劃分成不同的單元,然后在每個單元上定義一個類的條件概率分布,因此決策樹是由各個單元給定條件下的條件概率分布組成,決策樹學習是由訓練數據集估計條件概率模型,基于特征空間劃分的條件概率模型有無窮多個,我們選擇的條件概率模型應該不僅對訓練數據由很好的擬合,而且對未知數據有很好的預測。主要是以損失函數(通常是正則化的極大似然函數)為目標,損失函數最小化為策略建立決策樹模型,包含三個步驟:特征選擇、決策樹的生成和決策樹的修剪

? ? ? 考慮所有的特征空間的劃分在計算上是不可行的,所以我們采用一個自上而下的貪心算法,也被稱為遞歸二元劃分。

? ? ? 所謂自上而下即從樹的頂點開始,連續的劃分特征空間,每次劃分為兩個分支

? ? ? 所謂貪心即在每一步劃分的時候,最好的劃分只是指的是當前的某一步按照某個特征進行劃分是最好的,并不是尋找在未來也是最好的劃分,所以在每一步都要考慮哪一個特征被選擇用來劃分決策樹是最好的,而這一準則可以用殘差平方和(回歸樹)和信息增益或基尼指數(分類樹)來衡量。

1.特征選擇

(1)特征選擇的作用

Ⅰ篩選有分類能力的特征

? ? ? ?當實際用來構建決策樹的特征數過多時,可以在決策樹最開始的時候對特征進行選擇,只留下對決策樹有足夠分類能力的特征;

Ⅱ篩選分類能力最好的特征

? ? ? 在構建決策樹的過程中,每一步的劃分都需要選擇當前劃分最好的特征,也就是分類能力最好的特征

(2)特征選擇的準則

信息增益或信息增益比。

? ?Ⅰ熵和條件熵

? ? ⅰ熵是表示隨機變量不確定性的度量,熵越大,隨機變量的不確定性越大

? ? ⅱ條件熵度量了在給定X條件下Y剩下的不確定性

? ? 隨機變量X給定條件下隨機變量Y的條件熵定義為X給定條件下Y的條件概率分布的熵對X的數學期望

? ?Ⅱ信息增益和信息增益比

? ??ⅰ信息增益表示得知特征X的信息而使得類Y的信息的不確定性減少的程度。

? ? ⅱ為什么信息增益最大的特征就好?

? ? entroy(前) -? entroy(后)差異越大,說明使用當前特征劃分數據集D的話,其純度上升的更快。而我們在構建最優的決策樹的時候總希望能更快速到達純度更高的集合,在決策樹構建的過程中我們總是希望集合往最快到達純度更高的子集合方向發展,因此我們總是選擇使得信息增益最大的特征來劃分當前數據集D。

? ? ?ⅲ信息增益的缺點

? ? ? 以信息增益作為劃分訓練數據集的特征,在不要求是二叉樹的情況下,可能存在偏向于選擇取值較多的特征的問題,使用信息增益比可以對這一問題進行校正,這是特征選擇的另一準則

? ? ? 如果是取值更多的屬性,更容易使得數據更“純”(尤其是連續型數值),其信息增益更大,決策樹會首先挑選這個屬性作為樹的頂點。結果訓練出來的形狀是一棵龐大且深度很淺的樹,這樣的劃分是極為不合理的。

? ? ?信息增益比:特征A對訓練數據集D的信息增益比定義為其信息增益與訓練數據D關于特征A的值的熵的比

2.決策樹的生成

? (1)ID3算法

ID3算法用信息增益作為特征選擇準則,只有樹的生成,所以該算法容易造成過擬合

? (2)C4.5算法

與ID3算法相似,在其基礎上進行了改進,在生成的過程中,用信息增益比來進行特征選擇,并且還增加了決策樹的剪枝

剪枝方法:極小化決策樹整體的損失函數或代價函數來實現

基本思想:過擬合就是模型過于復雜,學習了訓練數據中一切信息包括噪聲和非代表性數據,因此剪枝就是從在損失函數中引入模型復雜度,同時考慮訓練數據的擬合程度和模型的復雜度

設已生成的決策樹的葉節點個數為|T|個,即決策樹的復雜度為|T|,每個葉節點的樣本數為

每個葉節點上的第k類的樣本數為

每個葉節點t上的經驗熵為

α>=0為參數,那么決策樹的損失函數為:

右邊第一項是模型訓練數據的預測誤差,即模型與訓練數據的擬合程度,剪枝就是當α確定時,選擇損失函數最小的模型,即損失函數最小的子樹,可以看出α確定時子樹越大,訓練數據擬合的越好,訓練誤差越小,模型復雜度就越高,第二項的值就越大,α正好表示了對訓練誤差和模型復雜度的權衡

? ? ? 具體剪枝時,是從葉節點開始剪枝,判斷一個葉節點是否進行剪枝就是比較剪枝后的子樹和剪枝前的子樹的損失函數,如果剪枝后的損失函數更小,那么從模型的簡單性考慮,我們會選擇剪枝,剪枝后父節點變成了葉節點,如此重復下去,直到不能繼續為止,在比較兩個子樹損失函數的差時,其計算可以在局部進行,所以決策樹剪枝可以由一種動態規劃算法實現

? ? ?可以看出,決策樹生成只考慮了通過提高信息增益(或信息增益比)對訓練數據進行更好的擬合,而決策樹剪枝通過優化損失函數還考慮了減小模型復雜度。決策樹生成學習局部的模型,而決策樹剪枝學習整體的模型

(3)CART算法(classication and regression tree)

? CART假設決策樹是二叉樹

? Ⅰ回歸樹

? ? ⅰ特征選擇

? ? ? 特征選擇準則是誤差平方和,我們知道對于確定的變量和確定的切分點,區域劃分后要使得總誤差平方和最小,那么每個區域的預測值是這個區域的樣本的因變量取值的平均值;那么對于確定的變量,我們通過選擇不同的切分點進行劃分,比較不同切分點劃分以后的總誤差平方和,選擇總誤差平方和最小的切分點就是這個變量的最優切分點;那么我們只需要比較各個變量進行區域劃分后的模型預測能力,然后選擇最大的變量即可,類似于選擇分類樹里面的分類能力最好的變量

? ? ? 對于分類變量,如果是二分類的,那么計算按照這個分類變量不同取值劃分的區域的總誤差平方和,如果是多分類的分類變量或者是數值型變量,那么就按照最優切分點進行區域劃分,按照大于這個切分點和小于這個切分點分為兩個區域,計算兩個區域的總誤差平方和,作為衡量這個變量的預測能力,按照這方法計算所有變量的劃分后的總誤差平方和,每次進行劃分時都選擇候選變量中總誤差平方和最小的

?ⅱ生成回歸樹

? ? ?每次選擇一個最優變量和最優切分點,重復上述劃分過程,直到滿足停止條件為止,這樣就生成一棵回歸樹,被稱為最小二乘回歸樹,每個葉節點的預測值就是這個葉節點上的樣本的因變量取值的平均值

? Ⅱ分類樹

? ? ⅰ特征選擇

使用基尼指數來選擇最優特征,同時決定該特征的最優二值切分點

在分類樹中的三個指標的區別:

? ? ? 基尼指數和熵之半的曲線很接近,都可以近似代表分類誤差率,但是分類誤差率對樹的生長不敏感,所以更偏向于選擇基尼指數和交叉熵來作為遞歸二分法的衡量指標,基尼指數和交叉熵被用來估計一次劃分的質量,這兩個指標對結點純度比分類誤差率更加敏感,而分類誤差率被用來更偏向于我們的目標是最后生成樹的預測效率

? ⅱ生成分類樹

? ? ? 算法步驟和上面回歸樹類似,只是換成了基尼指數最小,算法停止的條件是結點中的樣本數小于閾值或樣本集的基尼指數小于預定閾值(樣本基本同屬于同一類),或者沒有更多特征

? ⅲ分類樹的剪枝

? ? 1.從決策樹的低端進行剪枝,直到根節點,形成一個子樹序列

?Breiman等人證明,可以用遞歸的方法對樹進行剪枝,將α從小增大,

產生一系列的區間

剪枝得到的子樹序列對應著區間

的最優子樹序列

?序列中的子樹是嵌套的

具體的,從整體樹開始剪枝,對于任意的內部節點,比較其作為單節點(剪枝后)損失函數和其作為根節點的損失函數,當α很小的時候,后者小于前者,當α逐漸增大,后者=前者,再繼續,后者會超過前者,所以在臨界點時即二者相同時,此時前者的節點更少,就進行剪枝,按照這個方法,計算所有內部節點的對應的臨界值,選擇最小的那個節點開始剪枝,不斷的進行剪枝,直至到達根節點

? 2.在剪枝得到的子樹序列中用交叉檢驗選擇最優的子樹

? ◆在訓練數據集上進行學習得到一個決策樹
? ◆根據不同的復雜度α,修剪得到不同的子樹

? ◆將訓練數據集分為K份,重復一下過程:i=1,2,...,K

? ? (a)在除第k份數據上重復上面兩步,得到關于不同復雜度α的子樹

? ? (b)將這些子樹在第k份數據上做預測,并計算誤差平方和,得到了不同復雜度α的測試誤差

循環結束后,對于不同的α都有K個誤差值,對這K個誤差值進行平均,選擇最小測試誤差對應的α

3.模型特點

(1)優點:

1.決策樹易于理解和實現.更能反映人類作決策的行為,可以用圖形展示,甚至可以被非專家所解釋;

2.能夠同時處理數據型和常規型屬性。其他的技術往往要求數據屬性的單一(R語言中不需要創造虛擬變量也可以處理定類變量)

3.對缺失值不敏感,可以處理不相關特征數據,不需要考慮數據是否線性可分

(2)缺點:

1.預測效率上沒有監督學習方法好;

2.容易造成過擬合(解決辦法:集成學習)

3.在處理特征關聯性比較強的數據時表現得不是太好

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,428評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,024評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,285評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,548評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,328評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,878評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,971評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,098評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,616評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,554評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,725評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,243評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,971評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,361評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,613評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,339評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,695評論 2 370

推薦閱讀更多精彩內容