帶你掃盲機器學習基礎知識點【經驗誤差與泛化誤差、偏差與方差、欠擬合與過擬合、交叉驗證】

姓名:曾祎

學號:15020120057

轉自:https://blog.csdn.net/zhihua_oba/article/details/78684257

【嵌牛導讀】初如機器學習,肯定會被經驗誤差、泛化誤差、bias等等等等的名詞所困惑,曾小編便是特意從全網搜羅到了很用心很適合初學者掃盲科普自己的文章,光速帶你明白如何解決機器學習中的基礎問題,快帶領自己進入機器學習的世界吧。

【嵌牛鼻子】人工智能? 深度學習 初學者

【嵌牛提問】作為初學者,你真的搞懂了怎么判別欠擬合和過擬合么?

【嵌牛正文】

主要內容 :

1.經驗誤差與泛化誤差

2.偏差與方差

3.欠擬合與過擬合

4.交叉驗證

一、經驗誤差(訓練誤差)與泛化誤差

??經驗誤差(訓練誤差):模型在訓練集上的誤差稱為“經驗誤差”(empirical error)或者“訓練誤差”“training error”。

??泛化誤差:模型在新樣本集(測試集)上的誤差稱為“泛化誤差”(generalization error)。

二、偏差與方差

??泛化誤差可分解為偏差、方差與噪聲之和,即generalization?error=bias2+variance+noisegeneralization?error=bias2+variance+noise。

??“噪聲”:描述了在當前任務上任何學習算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度。

??假定期望噪聲為零,則泛化誤差可分解為偏差、方差之和,即generalization?error=bias2+variancegeneralization?error=bias2+variance。

??“偏差”:描述了模型的期望預測(模型的預測結果的期望)與真實結果的偏離程度。偏離程度越大,說明模型的擬合能力越差,此時造成欠擬合。

??“方差”:描述了數據的擾動造成的模型性能的變化,即模型在不同數據集上的穩定程度。方差越大,說明模型的穩定程度越差。如果模型在訓練集上擬合效果比較優秀,但是在測試集上擬合效果比較差劣,則方差較大,說明模型的穩定程度較差,出現這種現象可能是由于模型對訓練集過擬合造成的。

??簡單的總結一下:偏差大,說明模型欠擬合;方差大,說明模型過擬合。如何平衡模型的偏差和方差,一直是我們追求的效果。感興趣的童鞋,可以閱讀《Understanding the Bias-Variance Tradeoff》。

??下圖可以幫助讀者,更加直觀的理解“偏差”與“方差”。


圖1

三、欠擬合與過擬合

??如何通過學習曲線來識別模型是否發生了欠擬合/過擬合呢?如果發生了欠擬合/過擬合,我們又該如何處理呢?

??1、橫軸為訓練樣本數量,縱軸為誤差:

??首先,我們來看如何通過學習曲線識別是否發生了欠擬合/過擬合,如下圖2。模型欠擬合時,在訓練集以及測試集上同時具有較高的誤差,此時模型的偏差較大;模型過擬合時,在訓練集上具有較低的誤差,在測試集上具有較高的誤差,此時模型的方差較大。模型正常時,在訓練集以及測試集上,同時具有相對較低的偏差以及方差。


圖2

??然后,我們想辦法解決欠擬合/過擬合。根據上圖2,我們發現:當模型欠擬合的時候,我們發現增大訓練集,偏差無法降低,無法解決欠擬合問題;當模型過擬合的時候,我們發現增大訓練集,方差減小,可以解決過擬合問題。

??2、橫軸為模型復雜程度,縱軸為誤差:

??橫軸表示模型的復雜程度,增加模型的復雜程度的方法,比如增加特征項、添加多項式等等。

??首先,我們來看如何通過學習曲線識別是否發生了欠擬合/過擬合,如下圖3。模型在點A處,在訓練集以及測試集上同時具有較高的誤差,此時模型的偏差較大,模型欠擬合;模型在點C處,在訓練集上具有較低的誤差,在測試集上具有較高的誤差,此時模型的方差較大,模型過擬合。模型復雜程度控制在點B處為最優。


圖3

??然后,我們想辦法解決欠擬合/過擬合。根據上圖3,我們發現:當模型欠擬合時,可以增加模型的復雜程度;當模型過擬合時,可以減小模型的復雜程度。

??3、橫軸為正則項系數,縱軸為誤差:

??一般情況下,為了限制模型造成過擬合,可以添加正則項(懲罰項)。

??首先,我們來看如何通過學習曲線識別是否發生了欠擬合/過擬合,如下圖4。模型在點A處,在訓練集上具有較低的誤差,在測試集上具有較高的誤差,此時模型的方差較大,模型過擬合;模型在點C處,在訓練集以及測試集上同時具有較高的誤差,此時模型的偏差較大,模型欠擬合。模型正則項系數控制在點B處為最優。


圖4

??然后,我們想辦法解決欠擬合/過擬合。根據上圖4,我們發現:當模型過擬合時,可以增大模型正則項系數;模型欠擬合時,可以減小模型正則項系數。

??上文中,我們介紹了,如何通過學習曲線識別欠擬合/過擬合,以及對應的解決方法。接下來,我們針對欠擬合/過擬合,給出其他對應的解決方法。

??如何解決欠擬合:

??1)添加其他特征項,有時候我們模型出現欠擬合,是因為特征項不夠導致的,可以添加其他特征項來解決。例如,“組合”、“泛化”、“相關性”三類特征是特征添加的重要手段,無論在什么場景,都可以照葫蘆畫瓢,總會得到意想不到的效果。除上面的特征之外,“上下文特征”、“平臺特征”等等,都可以作為特征添加的首選項。

??2)添加多項式特征,這個在機器學習算法里面用的很普遍,例如將線性模型通過添加二次項或者三次項使模型泛化能力更強。例如,FM模型、FFM模型,其實就是線性模型,增加了二階多項式,保證了模型一定的擬合程度。

??3)減小正則化系數,前文中已經分析。

??等等,還有很多方法,可以對應下邊的過擬合解決方法來進行欠擬合解決方法的選擇。

??如何解決過擬合:

??1)重新清洗數據,導致過擬合的一個原因也有可能是數據不純導致的,如果出現了過擬合就需要我們重新清洗數據。

??2)增加訓練樣本數量,前文中已經分析。

??3)降低模型復雜程度,前文中已經分析。

??4)增大正則項系數,前文中已經分析。

??5)采用dropout方法,這個方法在神經網絡里面很常用。dropout方法,通俗一點講就是在訓練的時候讓神經元以一定的概率不工作。

??6)early stoping。

??7)減少迭代次數。

??8)增大學習率。

??9)添加噪聲數據。

??10)樹結構中,可以對樹進行剪枝。

??等等,方法很多,需要根據實際問題,實際模型,進行選擇。

四、交叉驗證

??交叉驗證,主要目的是針對模型的“泛化誤差”(generalization error)進行評估,得到模型的“泛化誤差”的近似值。當有多個模型可以選擇時,我們通常選擇“泛化誤差”最小的模型。

??這里主要介紹“K折交叉驗證”:

??1、將數據集(其實是訓練集,我們暫且稱為數據集吧,假設含有N個樣本)分成K份(每份含有N/K個樣本),選擇其中1份作為測試集,另外K-1份作為訓練集。這樣的話,測試集就有K種情況。

??2、在每種情況中,用訓練集訓練模型,用測試集測試模型,計算模型的泛化誤差(暫且這么叫吧)。

??3、將K種情況下,模型的泛化誤差取均值,得到模型最終的泛化誤差。

注:一般2<=K<=10。

??訓練集中樣本數量要足夠多,一般至少大于總樣本數的50%。

??訓練集和測試集必須從完整的數據集中均勻取樣。均勻取樣的目的是希望減少訓練集、測試集與原數據集之間的偏差。當樣本數量足夠多時,通過隨機取樣,便可以實現均勻取樣的效果。

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,533評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,055評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,365評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,561評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,346評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,889評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,978評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,118評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,637評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,558評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,739評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,246評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,980評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,362評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,619評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,347評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,702評論 2 370

推薦閱讀更多精彩內容