統計學習方法筆記:1.統計學習方法概論

這是我參加mlhub123組織的書籍共讀計劃的讀書筆記,活動見mlhub第一期讀書計劃

  • 閱讀章節:第一章:統計學習方法概論
  • 開始時間:2018-09-14
  • 結束時間:2018-09-16
  • 目標:讀完第一章,掌握基本概念,產出一篇筆記
  • 博客地址

第一章主要對全書內容做了一個內容的概括:

  • 統計學習:定義、研究對象和方法
  • 監督學習
  • 統計學習三要素:模型、策略、算法
  • 模型評估與選擇:包括正則化、交叉驗證與學習的泛化能力
  • 生成模型與判別模型
  • 分類問題、標注問題與回歸問題

統計學習

什么是統計學習

統計學習是關于計算機基于數據構建概率統計模型并運用模型對數據進行預測與分析的一門學科,統計學習也稱為統計機器學習

統計學習的特點

  • 統計學習以計算機及網絡為平臺,是建立在計算機及 網絡之上的
  • 統計學習以數據為研究對象,是數據驅動的學科
  • 統計學習的目的是對數據進行預測與分析
  • 統計學習以方法為中心,統計學習方法構建模型并應用模型進行預測與分析
  • 統計學習是概率論、統計學、信息論、計算理論、最優化理論及計算機科學等多個領域的交叉學科,并且在發展中逐步形成獨自的理論體系與方法論

什么是機器學習

如果一個程序可以在任務T上,隨著經驗E的增加,效果P也可以隨之增加,則稱這個程序可以從經驗中學習。 --- 卡內基美隆大學的Tom Michael Mitchell教授

如果以垃圾郵件為例,一個程序指的是用到的機器學習算法,比如:樸素貝葉斯、邏輯回歸;任務T指的是區分垃圾郵件的任務;經驗E為已經區分過是否為垃圾郵件的歷史郵件;效果P為機器學習算法在區分是否為垃圾郵件任務上的準確率

統計學習的目的

統計學習用于對數據進行預測與分析,特別是對未知新數據進行預測與分析

統計學習的方法

  • 監督學習(supervised learning):KNN、決策樹、貝葉斯、邏輯回歸
  • 非監督學習(unsupervised learning):聚類、降維
  • 半監督學習(semisupervised learning):self-training(自訓練算法)、Graph-based Semi-supervised Learning(基于圖的半監督算法)、Semi-supervised supported vector machine(半監督支持向量機,S3VM)
  • 強化學習(reinforcement learning):蒙特卡洛方法

監督學習

基本概念

  • 輸入空間(input space):輸入所有可能取值的集合
  • 輸出空間(output space):輸出所有可能取值的集合
  • 特征空間(feature space):每個具體的輸入是一個實例(instance),通常由特征向量(feature vector)表示。這時,所有特征向量存在的空間稱為特征空間
  • 聯合概率分布:統計學習假設數據存在一定的統計規律,X和Y具有聯合概率分布的假設就是監督學習關于數據的基本假設 - 機器學習-聯合概率分布筆記
  • 假設空間:學習的目的在于找到最好的模型,模型屬于由輸入空間到輸出空間的映射的集合,這個集合就是假設空間(hypothesis space)

人們根據輸入、輸出變量的不同類型,對預測任務給予不同的名稱:

  • 分類問題:輸出變量為有限個離散變量的預測問題
  • 回歸問題:輸入變量與輸出變量均為連續變量的預測問題
  • 標注問題:輸入變量與輸出變量均為變量序列的預測問題

問題的形式化

監督學習利用訓練數據集學習一個模型,再用模型對測試樣本集進行預測 (prediction):

image

輸入訓練集 -> 生成模型 -> 預測,由于訓練集是人工給出的,所以稱之為監督學習

統計學習三要素

統計學習方法由三要素構成,可以簡單地表示為:方法 = 模型 + 策略 + 算法

模型

在監督學習過程中,模型就是所要學習的條件概率分布或決策函數。模型的假設空間(hypothesis space)包含所有可能的條件概率分布或決策函數

例如,假設決策函數是輸入變量的線性函數,那么模型的假設空間就是所有這些線性函數構成的函數集合,假設空間中的模型一般有無窮多個

策略

知道模型的交涉空間后,現在的目的就是選擇出最優的一個模型出來,而這就是統計學習的目標,這里引入兩個概念:

  • 損失函數(loss function):用于度量模型一次預測的好壞
  • 風險函數(risk function):度量平均意義下模型預測的好壞

損失函數和風險函數

監督學習問題是在假設空間中選取模型f作為決策函數,對于給定的輸入X,由f(X)給出相應的輸出Y,這個輸出的預測值f(X)與真實值Y可能一致也可能不一致,用一個損失函數(loss function)或代價函數(cost function)來度量預測錯誤的程度,損失函數是f(X)和Y的非負實值函數,記作L(Y,f(X))

統計學習中常用的損失函數有如下幾種:

  • 0-1損失函數(0-1 loss function):


    image
  • 平方損失函數(quadratic loss function):


    image
  • 絕對損失函數(absolute loss function):


    image
  • 對數損失函數(logarithmic loss function)或對數似然損失函數(loglikelihood loss function):


    image

有了上面概念的鋪墊,又可以引入下面兩個概念:

  • 模型f(X)關于聯合分布P(X,Y)的平均意義下的損失:風險函數(risk function)或期望損失(expected loss):


    image
  • 模型f(X)關于訓練數據集的平均損失:經驗風險(empirical risk)或經驗損失(empirical loss):


    image

當樣本數量足夠的情況下,經驗風險是趨近于期望風險的,但是現實中樣本數量是有限的,,所以用經驗風險估計期望風險常常并不理想,要對經驗風險進行一定的矯正

這就關系到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化

經驗風險最小化與結構風險最小化

在假設空間、損失函數以及訓練數據集確定的情況下,經驗風險函數式(1.10)就可以確定,經驗風險最小化(empirical risk minimization,ERM)的策略認為,經驗風險最小的模型是最優的模型

image

當樣本數量過小,可能會出現過擬合問題,結構風險最小化(structural risk minimization,SRM)是為了防止過擬合而提出來的策略

結構風險最小化等價于正則化(regularization):

image

加上結構風險最小化的策略,此時的最優模型就是下面的最優化問題求解:

image

這樣,監督學習問題就變成了經驗風險或結構風險函數的最優化問題(1.11)和(1.13),這時經驗或結構風險函數是最優化的目標函數

算法

統計學習基于訓練數據集,根據學習策略,從假設空間中選擇最優模型,最后需要考慮用什么樣的計算方法求解最優模型,這時,統計學習問題歸結為最優化問題,統計學習的算法成為求解最優化問題的算法:

模型評估與模型選擇

訓練誤差與測試誤差

對于我們利用學習方法通過訓練給出的模型,我們希望這個模型能較好的具有以下兩點能力:

  • 擬合能力:已知數據的預測比較合理
  • 泛化能力:未知數據的預測比較合理

前面說過,損失函數能夠度量模型預測的好壞,所以基于損失函數的模型的訓練誤差(training error)和模型的測試誤差(test error)就自然成為學習方法評估的標準:

image

過擬合與模型選擇

我們認為在假設空間存在一個真的模型,那么我們選擇的模型的目標就是盡量接近這個真模型,假設空間很可能含有不同復雜度的模型,所以此時我們的目標就變成了尋找一個復雜度合適的模型,這里引出一個概念,過擬合(over fitting) - 所選模型的復雜度則比真模型更高

接下來我們的問題就轉接成了需找一個模型復雜度適當的模型,前面一節我們介紹了訓練誤差與測試誤差,那么訓練誤差與測試誤差和模型的復雜度有沒有什么關系呢,看下圖:

image

可以看到,訓練誤差和模型復雜度的關系是:隨著模型復雜度的增加,訓練誤差逐漸遞減,趨向于0(此時可能過擬合),但是測試誤差會有個最小值(此時才是最合適的復雜度)

那么我們的學習目的就出來了:選擇復雜度適當的模型,以達到使測試誤差最小

現在目的就很明確了,就是需要一個途徑比較測試誤差,選出最值小的,從而選出我們的模型:

  • 正則化
  • 交叉驗證

正則化與交叉驗證

正則化

在統計學習三要素那一節講過結構風險最小化策略,此策略的目的就是防止過擬合,正則化是結構風險最小化策略的實現,是在經驗風險上加一個正則化項(regularizer)或罰項(penalty term):

image

正則化的作用是選擇經驗風險與模型復雜度同時較小的模型

交叉驗證

交叉驗證的基本想法是重復地使用數據,把給定的數據進行切分,將切分的數據集組合為訓練集與測試集,在此基礎上反復地進行訓練、測試以及模型選擇,交叉驗證有如下三種方式:

  • 簡單交叉驗證
  • S折交叉驗證
  • 留一交叉驗證

泛化能力

學習方法的泛化能力(generalization ability)是指由該方法學習到的模型對未知數據的預測能力,是學習方法本質上重要的性質

泛化誤差

泛化誤差的定義

對于一個學到的模型,其對未知數的預測就是泛化誤差(generalization error),其實就是策略那節講的風險函數:

image

泛化誤差反映了學習方法的泛化能力,如果一種方法學習的模型比另一種方法學習的模型具有更小的泛化誤差,那么這種方法就更有效

泛化誤差上界

學習方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的,簡稱為泛化誤 差上界(generalization error bound)

泛化誤差上界性質如下:

  • 它是樣本容量的函數,當樣本容量增加時,泛化上界趨于0
  • 它是假設空間容量(capacity)的函數,假設空間容量越大,模型就越難學,泛化誤差上界就越大

生成模型與判別模型

監督學習方法可以分為:

  • 生成方法(generative approach):生成方法可以還原出聯合概率分布P(X,Y),而判別方法則不能;生成方法的學習收斂速度更快,即當樣本容量增加的時候,學到的模型可以更快地收斂于真實模型;當存在隱變量時,仍可以用生成方法學習,此時判別方法就不能用
  • 判別方法(discriminative approach):判別方法直接學習的是條件概率P(Y|X)或決策函數f(X),直接面對預測,往往學習的準確率更高;由于直接學習P(Y|X)f(X),可以對數據進行各種程度上 的抽象、定義特征并使用特征,因此可以簡化學習問題

所學到的模型分別稱為:

  • 生成模型(generative model):
    • 樸素貝葉斯法
    • 隱馬爾可夫模型
  • 判別模型(discriminative model):
    • k近鄰法
    • 感知機
    • 決策樹
    • 邏輯斯諦回歸模型
    • 最大熵模型
    • 支持向量機
    • 提升方法
    • 條件隨機場
    • ......

分類問題

在監督學習中,當輸出變量Y取有限個離散值時,預測問題便成為分類問題,監督學習從數據中學習一個分類模型或分類決策函數,稱為分類器(classifier)

許多統計學習方法可以用于分類:

  • k近鄰法
  • 感知機
  • 樸素貝葉斯法
  • 決策樹
  • 決策列表
  • 邏輯斯諦回歸模型
  • 支持向量機
  • 提升方法
  • 貝葉斯網絡
  • 神經網絡
  • Winnow
  • ......

評價分類器性能的指標一般是分類準確率(accuracy):對于給定的測試數據集,分類器正確分類的樣本數與總樣本數之比,也就是損失函數是0-1損失時測試數據集上的準確率,見圖1.17

對于二類分類問題常用的評價指標是精確率(precision)與召回率(recall),因為是二分類,所以一共有四中預測情況:

  • TP——將正類預測為正類數
  • FN——將正類預測為負類數
  • FP——將負類預測為正類數
  • TN——將負類預測為負類數
image

標注問題

標注問題的目標在于學習一個模型, 使它能夠對觀測序列給出標記序列作為預測

許多統計學習方法可以用于標注:

  • 隱馬爾可夫模型
  • 條件隨機場

評價標注模型的指標與評價分類模型的指標一樣,常用的有標注準確率、精確率和召回率,其定義與分類模型相同

回歸問題

回歸用于預測輸入變量(自變量)和輸出變量(因變量)之間的關系,特別是當輸入變量的值發生變化時,輸出變量的值隨之發生的變化,回歸問題按照輸入變量的個數,分為一元回歸和多元回歸;按照輸入變量和輸出變量之間關系的類型即模型的類型,分為線性回歸和非線性回歸

說明

一些參考鏈接:

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,797評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,179評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,628評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,642評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,444評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,948評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,040評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,185評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,717評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,794評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,418評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,414評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,750評論 2 370

推薦閱讀更多精彩內容

  • 文章作者:Tyan博客:noahsnail.com | CSDN | 簡書 1. 統計學習方法概論 本文是統計學習...
    SnailTyan閱讀 3,261評論 0 7
  • 第一章 統計學習方法概論 1.1 統計學習 實現統計學習方法的步驟如下: 1)得到一個有限的訓練數據集合 2)確定...
    蘇林欣閱讀 1,250評論 0 0
  • 統計學習 統計學習是關于計算機基于數據構建概率統計模型并運用模型對數據進行預測與分析的一門學科。統計學習也稱為統計...
    FindWG閱讀 1,863評論 0 5
  • 2017-4-2積累 最近讀了很多里笑來老師的文章,常常一篇文章要重讀三四次。經常有如“噩夢驚醒”一般的感受。啊,...
    觀瀾2017閱讀 137評論 0 0
  • 在寫人、記事的文章中,常常要描寫人物的外貌。這是因為,外貌 描寫是人物描寫的一個重要組成部分,對揭示人物的個性特征...
    遠航01閱讀 1,480評論 1 7