機器學習基石第七節

前幾節課著重介紹了機器能夠學習的條件并做了詳細的推導和解釋。機器能夠學習必須滿足兩個條件：

假設空間H的Size M是有限的，即當N足夠大的時候，那么對于假設空間中任意一個假設g，Eout≈Ein。
利用算法A從假設空間H中，挑選一個g，使Ein(g)≈0，則Eout≈0 。

這兩個條件，正好對應著test和trian兩個過程。train的目的是使損失期望Ein(g)≈0；test的目的是使將算法用到新的樣本時的損失期望也盡可能小，即Eout≈0。

正因為如此，上次課引入了break point，并推導出只要break point存在，則M有上界，一定存在Eout≈Ein。

本次筆記主要介紹VC Dimension的概念。同時也是總結VC Dimension與Ein(g)≈0，Eout≈0，Model Complexity Penalty（下面會講到）的關系。

一、Definition of VC Dimension

首先，我們知道如果一個假設空間H有break point k，那么它的成長函數是有界的，它的上界稱為Bound function。根據數學歸納法，Bound function也是有界的，且上界為Nk?1。從下面的表格可以看出，N(k?1)比B(N,k)松弛很多。

這里寫圖片描述

則根據上一節課的推導，VC bound就可以轉換為：

這里寫圖片描述

這樣，不等式只與k和N相關了，一般情況下樣本N足夠大，所以我們只考慮k值。有如下結論：

若假設空間H有break point k，且N足夠大，則根據VC bound理論，算法有良好的泛化能力
在假設空間中選擇一個矩g，使Ein≈0，則其在全集數據中的錯誤率會較低

這里寫圖片描述

下面介紹一個新的名詞：VC Dimension。VC Dimension就是某假設集H能夠shatter的最多inputs的個數，即最大完全正確的分類能力。（注意，只要存在一種分布的inputs能夠正確分類也滿足）。

shatter的英文意思是“粉碎”，也就是說對于inputs的所有情況都能列舉出來。例如對N個輸入，如果能夠將2N種情況都列出來，則稱該N個輸入能夠被假設集H shatter。

根據之前break point的定義：假設集不能被shatter任何分布類型的inputs的最少個數。則VC Dimension等于break point的個數減一。

這里寫圖片描述

現在，我們回顧一下之前介紹的四種例子，它們對應的VC Dimension是多少：

這里寫圖片描述

用dvc代替k，那么VC bound的問題也就轉換為與dvc和N相關了。同時，如果一個假設集H的dvc確定了，則就能滿足機器能夠學習的第一個條件Eout≈Ein，與算法、樣本數據分布和目標函數都沒有關系。

這里寫圖片描述

二、VC Dimension of Perceptrons

回顧一下我們之前介紹的2D下的PLA算法，已知Perceptrons的k=4，即dvc=3。根據VC Bound理論，當N足夠大的時候，Eout(g)≈Ein(g)。如果找到一個g，使Ein(g)≈0，那么就能證明PLA是可以學習的。

這里寫圖片描述

這是在2D情況下，那如果是多維的Perceptron，它對應的dvc又等于多少呢？

已知在1D Perceptron，dvc=2，在2D Perceptrons，dvc=3，那么我們有如下假設：dvc=d+1，其中d為維數。

要證明的話，只需分兩步證明：

dvc≥d+1
dvc≤d+1

這里寫圖片描述

首先證明第一個不等式：dvc≥d+1。

在d維里，我們只要找到某一類的d+1個inputs可以被shatter的話，那么必然得到dvc≥d+1。所以，我們有意構造一個d維的矩陣X能夠被shatter就行。X是d維的，有d+1個inputs，每個inputs加上第零個維度的常數項1，得到X的矩陣：

這里寫圖片描述

矩陣中，每一行代表一個inputs，每個inputs是d+1維的，共有d+1個inputs。這里構造的X很明顯是可逆的。shatter的本質是假設空間H對X的所有情況的判斷都是對的，即總能找到權重W，滿足X?W=y，W=X?1?y。由于這里我們構造的矩陣X的逆矩陣存在，那么d維的所有inputs都能被shatter，也就證明了第一個不等式。

這里寫圖片描述

然后證明第二個不等式：dvc≤d+1。

在d維里，如果對于任何的d+2個inputs，一定不能被shatter，則不等式成立。我們構造一個任意的矩陣X，其包含d+2個inputs，該矩陣有d+1列，d+2行。這d+2個向量的某一列一定可以被另外d+1個向量線性表示，例如對于向量Xd+2，可表示為：

Xd+2=a1?X1+a2?X2+?+ad+1?Xd+1

其中，假設a1>0，a2,?,ad+1<0.

那么如果X1是正類，X2,?,Xd+1均為負類，則存在W，得到如下表達式：
Xd+2?W=a1?X1?W+a2?X2?W+?+ad+1?Xd+1?W>0
因為其中藍色項大于0，代表正類；紅色項小于0，代表負類。所有對于這種情況，Xd+2一定是正類，無法得到負類的情況。也就是說，d+2個inputs無法被shatter。證明完畢！

這里寫圖片描述

綜上證明可得dvc=d+1。

三、Physical Intuition VC Dimension

這里寫圖片描述

上節公式中W又名features，即自由度。自由度是可以任意調節的，如同上圖中的旋鈕一樣，可以調節。VC Dimension代表了假設空間的分類能力，即反映了H的自由度，產生dichotomy的數量，也就等于features的個數，但也不是絕對的。

這里寫圖片描述

例如，對2D Perceptrons，線性分類，dvc=3，則W={w0,w1,w2}，也就是說只要3個features就可以進行學習，自由度為3。

介紹到這，我們發現M與dvc是成正比的，從而得到如下結論：

這里寫圖片描述

四、Interpreting VC Dimension

下面，我們將更深入地探討VC Dimension的意義。首先，把VC Bound重新寫到這里：

這里寫圖片描述

根據之前的泛化不等式，如果|Ein?Eout|>?，即出現bad壞的情況的概率最大不超過δ。那么反過來，對于good好的情況發生的概率最小為1?δ，則對上述不等式進行重新推導：

這里寫圖片描述

?表現了假設空間H的泛化能力，?越小，泛化能力越大。

這里寫圖片描述

至此，已經推導出泛化誤差Eout的邊界，因為我們更關心其上界（Eout可能的最大值），即：

這里寫圖片描述

上述不等式的右邊第二項稱為模型復雜度，其模型復雜度與樣本數量N、假設空間H(dvc)、?有關。Eout由Ein共同決定。下面繪出Eout、model complexity、Ein隨dvc變化的關系：

這里寫圖片描述

通過該圖可以得出如下結論：

dvc越大，Ein****越小，Ω* 越大（復雜）。
dvc越小，Ein****越大，Ω* 越小（簡單）。
隨著dvc增大，Eout會先減小再增大。

所以，為了得到最小的Eout，不能一味地增大dvc以減小Ein，因為Ein太小的時候，模型復雜度會增加，造成Eout變大。也就是說，選擇合適的dvc，選擇的features個數要合適。

下面介紹一個概念：樣本復雜度（Sample Complexity）。如果選定dvc，樣本數據D選擇多少合適呢？通過下面一個例子可以幫助我們理解：

這里寫圖片描述

通過計算得到N=29300，剛好滿足δ=0.1的條件。N大約是dvc的10000倍。這個數值太大了，實際中往往不需要這么多的樣本數量，大概只需要dvc的10倍就夠了。N的理論值之所以這么大是因為VC Bound 過于寬松了，我們得到的是一個比實際大得多的上界。

這里寫圖片描述

值得一提的是，VC Bound是比較寬松的，而如何收緊它卻不是那么容易，這也是機器學習的一大難題。但是，令人欣慰的一點是，VC Bound基本上對所有模型的寬松程度是基本一致的，所以，不同模型之間還是可以橫向比較。從而，VC Bound寬松對機器學習的可行性還是沒有太大影響。

五、總結

本節課主要介紹了VC Dimension的概念就是最大的non-break point。然后，我們得到了Perceptrons在d維度下的VC Dimension是d+1。接著，我們在物理意義上，將dvc與自由度聯系起來。最終得出結論dvc不能過大也不能過小。選取合適的值，才能讓Eout足夠小，使假設空間H具有良好的泛化能力。

最后編輯于：2018.05.23 14:37:15

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,156評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,401評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,069評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,873評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,635評論 6贊 408
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,128評論 1贊 323
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,203評論 3贊 441
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,365評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,881評論 1贊 334
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,733評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,935評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,475評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,172評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,582評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,821評論 1贊 282
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,595評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,908評論 2贊 372

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

機器學習基石第七節

機器學習基石第七節

一、Definition of VC Dimension

二、VC Dimension of Perceptrons

三、Physical Intuition VC Dimension

四、Interpreting VC Dimension

五、總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

機器學習基石第七節

一、Definition of VC Dimension

二、VC Dimension of Perceptrons

三、Physical Intuition VC Dimension

四、Interpreting VC Dimension

五、總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频