統計學習方法第一章:概述

1.監督學習基本概念

1.1輸入空間、特征空間與輸出空間

在監督學習中，將輸入與輸出所有可能取值的集合分別稱為輸入空間（input space）與輸出空間（output space）。輸入與輸出空間可以是有限元素的集合，也可以是整個歐式空間。輸入空間與輸出空間可以是同一個空間，也可以是不同的空間；但通常輸出空間遠遠小于輸入空間。
每個具體的輸入是一個實例（instance），通常由特征向量（feature vector）表示，這時，所有特征向量存在的空間稱為特征空間（feature space）。特征空間的每一維對應于一個特征。有時假設輸入空間與特征空間為相同的空間，對它們不予區分；有時假設輸入空間與特征空間為不同的空間，將實例從輸入空間映射到特征空間。模型實際上都是定義在特征空間上的。
在監督學習過程中，將輸入與輸出看作是定義在輸入（特征）空間與輸出空間上的隨機變量的取值。輸入、輸出變量用大寫字母表示，習慣上輸入變量寫作X，輸出變量寫作Y。輸入、輸出變量所取的值用小寫字母表示，輸入變量的取值寫作x，輸出變量的取值寫作y，變量可以是標量或向量，都用相同類型字母表示。除特別聲明外，本書中向量均為列向量，輸入實例x的特征向量記作
$x = (x^{(1)},x^{(2)},x^{(i)},...x^{(n)})^T$
$x^{(i)}$ 表示x的第i個特征，注意， $x^{(i)}$ 與 $x_{(i)}$ 不同，本書通常用 $x_{(i)}$ 表示多個輸入變量中的第i個，即
$x_i = (x_i^{(1)},x_i^{(2)},x_i^{(i)},...x_i^{(n)})^T$
監督學習從訓練數據（training data）集合中學習模型，對測試數據（test data）進行預測，訓練數據由輸入（或特征向量）與輸出對組成，訓練集通常表示為：

image

測試數據也由相應的輸入與輸出對組成，輸入與輸出對又稱為樣本（sample）或樣本點。
輸入變量X和輸出變量Y有不同的類型，可以是連續的，也可以是離散的。人們根據輸入、輸出變量的不同類型，對預測任務給予不同的名稱：輸入變量與輸出變量均為連續變量的預測問題稱為回歸問題；輸出變量為有限個離散變量的預測問題稱為分類問題；輸入變量與輸出變量均為變量序列的預測問題稱為標注問題。

1.2.聯合概率分布

監督學習假設輸入與輸出的隨機變量X和Y遵循聯合概率分布P(X,Y)。P(X,Y)表示分布函數，或分布密度函數。注意，在學習過程中，假定這一聯合概率分布存在，但對學習系統來說，聯合概率分布的具體定義是未知的，訓練數據與測試數據被看作是依聯合概率分布P(X,Y)獨立同分布產生的。統計學習假設數據存在一定的統計規律，X和Y具有聯合概率分布的假設就是監督學習關于數據的基本假設。

1.3.假設空間

監督學習的目的在于學習一個由輸入到輸出的映射，這一映射由模型來表示。模型屬于由輸入空間到輸出空間映射的集合，這個集合就是假設空間（hypothesis space），假設空間的確定意味著學習范圍的確定。

2.統計學習三要素

統計學習方法都是由模型、策略和算法構成的，即統計學習方法由三要素構成，可以簡單地表示為：
方法 = 模型+策略+算法

2.1模型

模型是統計學習首要考慮的問題，在監督學習過程中，模型就是所要學習的條件概率分布或決策函數。模型的假設空間（hypothesis space）包含所有可能的條件概率分布或決策函數。例如，假設決策函數是輸入變量的線性函數，那么模型的假設空間就是所有這些線性函數構成的函數集合。

2.2策略

首先引入損失函數和風險函數的概念，損失函數度量模型一次預測的好壞，風險函數度量平均意義下模型預測的好壞。

1.損失函數和風險函數

監督學習問題是假設空間F中選取模型f作為決策函數，對于給定的輸入X，由f(X)給出相應的輸出Y，這個輸出的預測值f(X)與真實值Y可能一致也可能不一致，用一個損失函數（loss function）或代價函數（cost function）來度量預測錯誤的程度，損失函數是f(X)和Y的非負實值函數，記作L(Y,f(X)).
統計學習常用的損失函數有以下幾種：

(1) 0-1損失函數（0-1 loss function）

$L(Y,f(X)) = \begin{cases} 1, Y \neq f(x) \\ 0, Y = f(X) \end{cases}$

(2)平方損失函數（quadratic loss function）

$L(Y,f(X)) = (Y-f(X))^2$

(3)絕對損失函數（absolute loss function）

$L(Y,f(X)) = |Y-f(X)|$

(4)對數損失函數（logarithmic loss function）或對數似然損失函數（log likelihood loss function）

$L(Y,P(Y|X)) = -logP(Y|X)$
損失函數值越小，模型就越好，由于模型的輸入、輸出（X,Y）是隨機變量，遵循聯合分布P(X,Y)，所以損失函數的期望是：

image

這是理論上模型f(X)關于聯合分布P(X,Y)的平均意義下的損失，稱為風險函數（risk function）或期望損失（expected loss）
學習的目標就是選擇期望風險最小的模型，由于聯合分布P（X,Y）是未知的，不能直接計算。實際上，如果知道聯合分布P(X,Y)，可以從聯合分布直接求出條件概率分布P(Y|X)，也就不需要學習了。正因為不知道聯合概率分布，所以才需要進行學習，這樣一來，一方面根據期望風險最小學習模型要用到聯合分布，另一方面聯合分布又是未知的，所以監督學習就稱為一個病態問題。
給定一個訓練數據集

模型f(X)關于訓練數據集的平均損失稱為

經驗風險（empirical risk）或經驗損失（empirical loss），記作：

$R_{exp}(f) = \frac{1}{N}\sum^n_{i=1}L(y_i,f(x_i))$

期望風險 $R_{exp}(f)$ 是模型關于聯合分布的期望損失，經驗風險 $R_{emp}(f)$ 是模型關于訓練樣本集的平均損失。根據大數定律，當樣本容量N趨于無窮時，經驗風險 $R_{emp}(f)$ 趨于期望風險 $R_{exp}(f)$ ，所以一個很自然的想法是用經驗風險估計期望風險。但是，由于現實中訓練樣本數目有限，甚至很小，所以用經驗風險估計期望風險常常并不理想，要對經驗風險進行一定的矯正，這就關系到監督學習的兩個基本策略：經驗風險最小化和結構風險最小化。

2.經驗風險最小化與結構風險最小化

在假設空間、損失函數以及訓練數據確定的情況下，經驗風險函數式（1.10）就可以確定，經驗風險最小化（empirical risk minimization,ERM）的策略認為，經驗風險最小的模型是最優的模型，根據這一策略，按照經驗風險最小化求最優模型就是求解最優化問題：

image

其中F是假設空間，
當樣本容量足夠大時，經驗風險最小化能保證有很好的學習效果，在現實中被廣泛采用。比如，極大似然（maximum likelihood estimation）就是經驗風險最小化的一個例子。當模型是條件概率分布，損失函數是對數損失函數時，經驗風險最小化就等價于極大似然估計。
但是，當樣本容量很小時，經驗風險最小化學習的效果就未必很好，會產生后面將要敘述的“過擬合”現象。
結構風險最小化（structural risk minimization，SRM）是為了防止過擬合而提出來的策略，結構風險最小化等價于正則化（regularization）。結構風險在經驗風險上加上表示模型復雜度的正則化項（regularization）或罰項（penalty term）。在假設空間、損失函數以及訓練數據集確定的情況下，

結構風險的定義是：

$R_{srm}(f) = \frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i)) + \lambda J(f)$

其中 $j(f)$ 為模型的復雜度，是定義在假設空間F上的泛函，模型f越復雜，復雜度J(f)就越大；反之，模型f越簡單，復雜度J(f)就越小。也就是說，復雜度表示了對復雜模型的懲罰。 $\lambda \geq 0$ 是系數，用以權衡經驗風險和模型復雜度。結構風險小需要經驗風險與模型復雜度同時小。結構風險小的模型往往對訓練數據以及未知的測試數據都有較好的預測。
比如，貝葉斯估計中的最大后驗概率估計（MAP）就是結構風險最小化的一個例子，當模型是條件概率分布、損失函數是對數損失函數、模型復雜度由模型的先驗概率表示時，結構風險最小化就等價于最大后驗概率估計。
結構風險最小化的策略認為結構風險最小的模型是最優的模型，所以求最優模型，就是求解最優化問題：
$min_{f\in F} \frac{1}{N}\sum^N_{i=1}L(Y_i,f(x_i))+ \lambda J(f)$
這樣，監督學習問題就變成了經驗風險或結構風險函數的最優化問題，這時經驗或結構風險函數是最優化的目標函數。

2.3.算法

算法是指學習模型的具體計算方法。統計學習基于訓練數據集，根據學習策略，從假設空間中選擇最優模型，最后需要考慮用什么樣的計算方法求解最優模型。
這時，統計學習問題歸結為最優化問題，統計學習的算法成為求解最優化問題的算法，如果最優化問題有明顯的解析解，這個最優化問題就比較簡單，但通常解析解不存在，這就需要用數值計算的方法求解，如何保證找到全局最優解，并使求解過程非常搞笑，就稱為一個重要問題，統計學可以利用已有的最優化算法，有時也需要開發獨自的最優化算法。
統計學習方法之間的不同，主要來自其模型、策略、算法的不同。確定了模型、策略、算法，統計學習的方法也就確定了，這也就是將其稱為統計學習三要素的原因。

3.模型評估與模型選擇

3.1訓練誤差與測試誤差

假設學習到的模型是 $Y=\hat f(X)$ ,訓練誤差是模型 $Y=\hat f(X)$ 關于訓練數據集的平均損失：

$R_{emp}(\hat f) = \frac{1}{N}\sum^N_{i=1}L(y_i,\hat f(x_i))$

其中N是訓練樣本容量。
測試誤差是模型 $Y=\hat f(X)$ 關于測試數據集的平均損失：

$e_{test} = \frac{1}{N'}\sum^{N'}_{i=1}L(y_i,\hat f(x_i))$

其中N'是測試樣本容量。
例如，當損失函數是0-1損失時，測試誤差就變成了常見的測試數據集上的誤差率（error rate）

$e_{test} = \frac{1}{N'}\sum^{N'}_{i=1}I(y_i \not=\hat f(x_i))$

這里I是指示函數（indicator function），即 $y \not= \hat f(x_i)$ 時為1，否則為0.相應地，常見的測試數據集上的準確率（accuracy）為

$r_{test} = \frac{1}{N'}\sum^{N'}_{i=1}I(y_i =\hat f(x_i))$

顯然， $r_{test} + e_{test} = 1$
訓練誤差的大小，對判斷給定的問題是不是一個容易學習的問題是有意義的，但本質上不重要，測試誤差反映了學習方法對未知的測試數據集的預測能力，是學習中的重要概念。顯然，給定兩種學習方法，測試誤差小的方法具有更好的預測能力，是更有效的方法。通常將學習方法對未知數據的預測能力稱為泛化能力（generalization ability）。

3.2過擬合與模型選擇

下面，以多項式函數擬合問題為例，說明過擬合與模型選擇：
這是一個回歸問題，假設給定一個訓練數據集：
$T = {(x_1,y_1),(x_2,y_2),...(x_n,y_n)}$
其中， $x_i \in R$ 是輸入x的觀測值， $y_i \in R$ 是相應的輸出y的觀測值，i=1,2，。。。N。多項式函數擬合的任務時假設給定數據由M次多項式函數生成，選擇最有可能產生這些數據的M次多項式函數，即在M次多項式函數中選擇一個對已知數據以及未知數據都有很好預測能力的函數。
假設給定如下圖所示的10個數據點，用0~9次多項式函數對數據進行擬合，圖中畫出了需要使用多項式函數曲線擬合的數據：

M次多項式函數擬合問題的例子

設M次多項式為：

image

式中x是單變量輸入，w0，w1，。。wm是M+1個參數
解決這一問題的方法可以是這樣的，首先確定模型復雜度，即確定多項式的次數；然后在給定的模型復雜度下，按照經驗風險最小化的策略，求解參數，即多項式的系數，具體地，求以下經驗風險最小化：

$L(w) = \frac{1}{2} \sum{^N_{i=1}}(f(x_i,w)-y_i)^2$ （1.18）

這時，損失函數為平方損失，系數二分之一是為了計算方便，這是一個簡單的最優化問題，將模型與訓練數據代入式（1.18）中，有
$L(w) = \frac{1}{2}\sum{^N_{i=1}}(\sum{^M_{j=0}w_jx_i^j -y_i})^2$
對 $w_j$ 求偏導數并令其為0，可得：

$w_j = \frac{\sum{^N_{i=1}x_iy_i}}{\sum{^N_{i=1}x_i^{(j+1)}}},j=0,1,2,...,M$

于是求得擬合多項式系數 $w_0^*,w_1^*，...w_M^*$
上圖中給出了M=0，M=1，M=3及M=9時多項式函數擬合的情況，如果M=0，多項式曲線是一個常數，數據擬合效果很差。如果M=1，多項式曲線是一條直線，數據擬合效果也很差，相反，如果M=9，多項式曲線通過沒個數據點，訓練誤差為0.從對給定訓練數據擬合的角度來說，效果是最好的。但是，因為訓練數據本身存在噪音，在實際學習中并不可取，這時過擬合現象就會發生，這就是說，模型選擇時，不僅要考慮對已知數據的預測能力，而且還要考慮對未知數據的預測能力，當M=3時，多項式曲線對訓練數據擬合效果足夠好，模型也比較簡單，是一個較好的選擇。
在多項式函數擬合中可以看到，隨著多項式次數（模型復雜度）的增加，訓練誤差會減小，直至趨向于0，但是測試誤差卻不如此，它會隨著多項式次數（模型復雜度）的增加先減小而后增大，而最終的目的是使測試誤差達到最小，這樣，在多項式函數擬合中，就要選擇合適的多項式次數，以達到這一目的。這一結論對一般的模型選擇也是成立的。
下圖描述了訓練誤差和測試誤差與模型的復雜度之間的關系：

image

如上圖，當模型的復雜度增大時，訓練誤差會逐漸減小并趨向于0；而測試誤差會先減小，達到最小值后又增大。當選擇的模型復雜度過大時，過擬合現象就會發生，這樣，在學習時就要防止過擬合，進行最優的模型選擇，即選擇復雜度適當的模型，以達到使測試誤差最小的學習目的。下面介紹兩種常用的模型選擇方法：正則化與交叉驗證。

4.正則化與交叉驗證

4.1正則化

模型選擇的典型方法是正則化（regularization）。正則化是結構風險最小化策略的實現，是在經驗風險上加一個正則化項（regularizer）或罰項（penalty term）正則化項一般是模型復雜度的單調遞增函數，模型越復雜，正則化值越大，比如，正則化可以使模型參數向量的范數。
正則化一般具有如下形式：

image

其中，第一項是經驗風險，第二項是正則化項，為調整兩者之間關系的系數。
正則化項可以取不同的形式，例如，回歸問題中，損失函數是平方損失，正則化項可以是參數向量的范數：

這里，||w||表示參數向量w的L2范數。
正則化項也可以是參數向量的L1范數：

這里，||w||1表示參數向量w的L1范數。

4.2交叉驗證

另一種常用的模型選擇方法是交叉驗證法（cross validation）

交叉驗證的基本思想：

交叉驗證的基本思想是重復地使用數據，把給定的數據進行切分，將切分的數據集組合為訓練集與測試集，在此基礎上反復地進行訓練、測試以及模型選擇。
1.簡單交叉驗證：
簡單交叉驗證的方法是：首先隨機地將已給數據分為兩部分，一部分作為訓練集，另一部分作為測試集（例如，70%的數據為訓練集，30%的數據為測試集），然后用訓練集在各種條件下（例如，不同的參數個數）訓練模型，從而得到不同的模型；在測試集上評價各個模型的測試誤差，選出測試誤差最小的模型。
2.S折交叉驗證
瑩瑩最多的S著交叉驗證（S-fold cross validation），方法如下：
首先隨機地將已給數據切分為S個互不相交的大小相同的子集；然后利用S-1個子集的數據訓練模型，利用余下的子集測試模型；將這一過程對可能的S種選擇重復進行；最后選出S次評測中平均測試誤差最小的模型。
3.留一交叉驗證
S折交叉驗證的特殊情形是S=N，稱為留一交叉驗證（leave-one-out cross validation），往往在數據缺乏的情況下使用。這里N，是給定數據集的容量。

5.泛化能力

5.1泛化誤差

學習方法的泛化能力（generalization ability）是指由該方法學習到的模型對未知數據的預測能力，是學習方法本質上重要的性質。現實中采用最多的辦法是通過測試誤差來評價學習方法的泛化能力。但這種評價是依賴于測試數據集的，因為測試數據集是有限的，很有可能由此得到的評價結果是不可靠的。統計學習理論試圖從理論上對學習方法的泛化能力進行分析。
首先給出泛化誤差的定義，如果學到的模型是 $\hat f$ ,那么用這個模型對未知數據預測的誤差即為泛化誤差（generalization error）

$R_{exp}(\hat f) = E_p[L(Y,\hat f(X))] = \int _{x*y}L(y,\hat f(x))P(x,y)dxdy$ (1.20)

泛化誤差反映了學習方法的泛化能力，如果一種方法學習的模型比另一種方法學習的模型具有更小的泛化誤差，那么這種方法就更有效。事實上，泛化誤差就是所學習到的模型的期望風險。

5.2 泛化誤差上界

學習方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的，簡稱泛化誤差上界（generalization error bound），具體來說，就是通過比較兩種學習方法的泛化誤差上界的大小來比較它們的優劣，泛化誤差上界通常具有以下性質：它是樣本容量的函數，當樣本容量增加時，泛化上界趨于0；它是假設空間容量（capacity）的函數，假設空間容量越大，模型就越難學，泛化誤差上界就越大。
下面給出一個簡單的泛化誤差上界的例子：二分類問題的泛化誤差上界。
考慮二分類問題，已知訓練數據集 $T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$
,它是從聯合概率分布P（X,Y）獨立同分布產生的， $X \in R^n，Y \in {-1,+1}$ .假設空間是函數的有限集合F={f1,f2,...,fd},d是函數個數，設f是從F中選取的函數，損失函數是0-1損失。關于f的期望風險和經驗風險分別是：

$R(f) = E[L(Y,f(X))]$ (1.21)

$\hat R(f) = \frac{1}{N} \sum{^N_{i=1}}L(y_i,f(x_i))]$ (1.22)

經驗風險最小化函數是

$f_n=\mathop{argmin}\limits_{f\in F} \hat R(f)$

人們更關心的是 $f_N$ 的泛化能力
$R(f_N) = E[L(Y,f_n(X))]$
下面討論從有限集合
$F = {f_1,f_2,...,f_d}$ 中任意選出的函數f的泛化誤差上界。

定理1.1（泛化誤差上界）：

對二分類問題，當假設空間是有限個函數的集合 $F = {f_1,f_2,...,f_d}$ 時，對任意一個函數 $f \in F$ ，至少以概率 $1-\delta$ ,以下不等式成立：

$R(f) \le \hat R(f)+ \varepsilon(d,N,\delta)$ (1.25)

其中，

$\varepsilon(d,N,\delta) = \sqrt{\frac{1}{2N}(log d+log\frac{1}{\delta})}$ (1.26)

不等式（1.25）左端 $R(f)$ 是泛化誤差，右端即為泛化誤差上界，在泛化誤差上界中，第1項是訓練誤差，訓練誤差越小，泛化誤差也越小。第二項 $\varepsilon(d,N,\delta)$ 是N的單調遞減函數，當N趨近于無窮大時趨于0；同時它也是 $\sqrt{logd}$ 階的函數，假設空間F包含的函數越多，其值越大。

證明

在證明中要用到Hoeffding不等式，先敘述如下：
設 $S_n=\sum{^n_{i=1}}X_i$ 是獨立隨機變量 $X_1,X_2,...X_n$ 之和， $X_i \in[a_i,b_i]$ ，則對任意t>0，以下不等式成立：

(描述)

對任意函數是N個獨立的隨機變量L(Y,f(X))的樣本均值，是隨機變量L(Y,f(X))的期望值，如果損失函數取值于區間[0,1],即對所有那么由Hoeffding不等式(1.28)不難得知，對以下不等式成立：

image

其中，由式（1.26）定義，由式（1.23）定義，這就是說，訓練誤差小的模型，其泛化誤差也會小。
以上討論的只是假設空間包含有限個函數情況下的泛化誤差上界，對一般的假設空間要找到泛化誤差就沒有這么簡單。

6.生成模型與判別模型

監督學習的任務就是學習一個模型，應用這一模型，對給定的輸入預測相應的輸出。這個模型的一般形式為決策函數：

$Y=f(X)$

或者條件概率分布：

P(Y|X)

監督學習方法又可以分為生成方法（generative approach）和判別方法（discriminative approach）所學到的模型分別稱為生成模型（generative model）和判別模型（discriminative model）
生成方法由數據學習聯合概率分布P（X,Y），然后求出條件概率分布P(Y|x)作為預測的模型，即生成模型：
$P(y|X) = \frac{P(X,Y)}{P(X)}$
這樣的方法之所有稱為生成方法，是因為模型表示了給定輸入X產生輸出Y的生成關系。

典型的生成模型有：

樸素貝葉斯法和隱馬爾可夫模型，將在后面章節進行相關講述。
判別方法由數據直接學習決策函數發f(X)或者條件概率分布P（Y|X）作為預測的模型，即為判別模型。判別方法關心的是對給定的輸入X，應該預測什么樣的輸出Y。

典型的判別模型包括：

k近鄰法、感知機、決策樹、邏輯斯諦回歸模型、最大熵模型、支持向量機、提升方法和條件隨機場等。

生成方法的特點：

生成方法可以還原出聯合概率分布P(X,Y)，而判別方法則不能；生成方法的學習收斂速度更快，即當樣本容量增加的時候，學到的模型可以更快地收斂于真實模型；當存在隱變量時，仍可以用生成方法學習，此時判別方法就不能用。

判別方法的特點：

判別方法直接學習的是條件概率P(Y|X)或決策函數f(X)，直接面對預測，往往學習的準確率更高；由于直接學習P(Y|X)或f(X)，可以對數據進行各種程度上的抽象、定義特征并使用特征，因此可以簡化學習問題。

7.分類問題

分類是監督學習的一個核心問題，在監督學習中，當輸出變量Y取有限個離散值時，預測問題便成為分類問題。這時，輸入變量X可以是離散的，也可以是連續的。監督學習從數據中學習一個分類模型或分類決策函數，稱為分類器（classifier）。分類器對新的輸入進行輸出的預測（prediction），稱為分類（classification）。可能的輸出稱為類（class）。分類的類別為多個時，稱為多分類問題。我們主要討論二分類問題。
分類問題包括學習和分類兩個過程，在學習過程中，根據已知的訓練數據集利用有效的學習方法學習一個分類器；在分類過程中，利用學習的分類器對新的輸入實例進行分類。分類問題可用下圖描述：

image

圖中學習系統由訓練數據學習一個分類器P(Y|X)或Y=f(X)；分類系統通過學到的分類器P(Y|X)或Y=f(X)對新的輸入實例進行分類，即預測其輸出的類標記
評價分類器性能的指標一般是分類準確率（accuracy），其定義是：對于給定的測試數據集，分類器正確分類的樣本數與總體樣本數之比，也就是損失函數是0-1損失時測試數據集上的準確率
對于二類分類問題常用的評價指標是精確率（precision）與召回率（recall）通常以關注的類為正類，其他類為負類，分類器在測試數據集上的預測或正確或不正確，4種情況出現的總數分別記作：
TP——將正類預測為正類數；
FN——將正類預測為負類數；
FP——將負類預測為正類數；
TN——將負類預測為負類數。

精確率定義為： $P = \frac{TP}{TP+FP}$

召回率定義為： $R = \frac{TP}{TP+FN}$

此外，還有 $F_1$ 值，是精確率和召回率的調和均值，即

$\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}$

$F_1=\frac{2TP}{2TP+FP+FN}$

精確率和召回率都高時， $F_1$ 值也會高。
許多統計學習方法可以用于分類，包括k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、支持向量機、提神方法、貝葉斯網絡、神經網絡、Winnow等。
分類在于根據其特性將數據“分門別類”，所以在許多領域都有廣泛的應用。例如，在銀行業務中，可以構建一個客戶分類模型，對客戶按照貸款風險的大小進行分類；在網絡安全領域，可以利用日志數據的分類對非法入侵進行檢測；在圖像處理中，分類可以用來檢測圖像中是否有人臉出現；在手寫識別中，分類可以用于識別手寫的數字；在互聯網搜索中，網頁的分類可以幫助網頁的抓取、索引與排序。

8.標注問題

標注（tagging）也是一個監督學習問題，可以認為標注問題是分類問題的一個推廣，標注問題又是更復雜的結構預測（structure prediction）問題的簡單形式。標注問題的輸入是一個觀測序列，輸出是一個標記序列或狀態序列。標注問題的目標在于學習一個模型，使它能夠對觀測序列給出標記序列作為預測。注意，可能的標記個數是有限的，但其組合所成的標記序列的個數是依序列長度呈指數級增長的。
標注問題分為學習和標注兩個過程，如下圖所示：

image

首先給定一個訓練數據集，這里是輸入觀測序列，是相應的輸出標記序列，n是序列的長度，對不同樣本可以有不同的值。學習系統基于訓練數據集構建一個模型，表示為條件概率分布：

這里，每一個取值為所有可能的觀測，每一個取值為所有可能的標記，一般。標注系統按照學習得到的條件概率分布模型，對新的輸入觀測序列找到相應的輸出標記序列。具體地，對一個觀測序列找到條件概率
的最大標記序列
評價標注模型的指標與評價分類模型的指標一樣，常用的有標注準確率、精確率和召回率。其定義與分類模型相同。
標注常用的統計學習方法有：隱馬爾可夫模型、條件隨機場。
標注問題在信息抽取、自然語言處理等領域被廣泛應用，是這些領域的基本問題。例如，自然語言處理中的詞性標注（part of speech tagging）就是一個典型的標注問題：給定一個由單詞組成的句子，對這個句子中的每一個單詞進行詞性標注，即對一個單詞序列預測其對應的詞性標記序列。
舉一個信息抽取的例子，從英文文章中抽取基本名詞短語（base nounphrase）為此，要對文章進行標注，英文單詞是一個觀測，英文句子是一個觀測序列，標記表示名詞短語的“開始”、“結束”或“其他”（分別以B,E,O表示），標記序列表示英文句子中基本名詞短語的所在位置。信息抽取時，將標記“開始”到標記“結束”的單詞作為名詞短語。例如，給出以下的觀測序列，即英文句子，標注系統產生相應的標記序列，即給出句子中的基本名詞短語。

image

9.回歸問題

回歸（regression）是監督學習的另一個重要問題，回歸英語預測輸入變量（自變量）和輸出變量（因變量）之間的關系，特別是輸入變量的值發生變化時，輸出變量的值隨之發生的變化。回歸模型正是表示從輸入變量到輸出變量之間映射的函數。回歸問題的學習等價于函數擬合：
選擇一條函數曲線使其很好地擬合已知數據且很好地預測未知數據。
回歸問題分為學習和預測兩個過程，如下圖：

image

首先給定一個訓練數據集，學習系統基于訓練數據構建一個模型，即函數Y=f(X)；對于新的輸入，預測系統根據學習的模型Y=f(X)確定相應的輸出
回歸問題按照輸入變量的個數，分為一元回歸和多元回歸；按照輸入變量和輸出變量之間關系的類型即模型的類型，分為線性回歸和非線性回歸。
回歸學習最常用的損失函數是平方損失函數，在此情況下，回歸問題可以由著名的最小二乘法（least squares）求解。
許多領域的任務都可以形式化為回歸問題，比如，回歸可以用于商務領域，作為市場趨勢預測、產品質量管理、客戶滿意度調查、投資風險分析的工具。作為例子，簡單介紹股價預測問題。假設知道某一公司在過去不同時間點（比如，每天）的市場上的股票價格，可以將這個問題作為回歸問題解決，具體地，將影響股價的信息視為自變量（輸入的特征），而將股價視為因變量（輸出的值）。將過去的數據作為訓練數據，就可以學習一個回歸模型，并對未來的股價進行預測，可以看出這是一個困難的預測問題，因為影響股價的因素非常多，我們未必能判斷到哪些信息（輸入特征）有用并能得到這些信息。

《統計學習方法》第1章課后題

1.1 說明伯努利模型的極大似然估計以及貝葉斯估計中的統計學習方法三要素。伯努利模型是定義在取值為0與1的隨機變量上的概率分布。假設觀測到伯努利模型n次獨立的數據生成結果，其中k次的結果為1，這時可以用極大似然估計或貝葉斯估計來估計結果為1的概率。

解：
三要素分別是模型、策略、算法。
模型：伯努利模型，即定義在取值為0與1的隨機變量上的概率分布。
策略：極大似然估計和貝葉斯估計的策略都是對數損失函數，只不過貝葉斯估計使用的是結構風險最小化。
算法：極大似然估計所使用的算法是求取經驗風險函數的極小值，貝葉斯估計所使用的算法是求取參數的后驗分布，然后計算其期望。

1.2 原題：通過經驗最小化推導極大似然估計，證明模型是條件概率分布，當損失函數是對數損失函數時，經驗最小化等價于極大似然估計。

image

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,702評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,143評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,553評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,620評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,416評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,940評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,024評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,170評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,709評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,597評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,784評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,291評論 5贊 357
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,029評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,407評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,663評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,403評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,746評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

統計學習方法第一章:概述

1.監督學習基本概念

1.1輸入空間、特征空間與輸出空間

1.2.聯合概率分布

1.3.假設空間

2.統計學習三要素

2.1模型

2.2策略

1.損失函數和風險函數

(1) 0-1損失函數（0-1 loss function）

(2)平方損失函數（quadratic loss function）

(3)絕對損失函數（absolute loss function）

(4)對數損失函數（logarithmic loss function）或對數似然損失函數（log likelihood loss function）

經驗風險（empirical risk）或經驗損失（empirical loss），記作：

2.經驗風險最小化與結構風險最小化

結構風險的定義是：

2.3.算法

3.模型評估與模型選擇

3.1訓練誤差與測試誤差

3.2過擬合與模型選擇

（1.18）

4.正則化與交叉驗證

4.1正則化

4.2交叉驗證

交叉驗證的基本思想：

5.泛化能力

5.1泛化誤差

(1.20)

5.2 泛化誤差上界

(1.21)

(1.22)

定理1.1（泛化誤差上界）：

(1.25)

(1.26)

證明

6.生成模型與判別模型

P(Y|X)

典型的生成模型有：

典型的判別模型包括：

生成方法的特點：

判別方法的特點：

7.分類問題

精確率定義為：

召回率定義為：

8.標注問題

9.回歸問題

《統計學習方法》第1章 課后題

1.2 原題：通過經驗最小化推導極大似然估計，證明模型是條件概率分布，當損失函數是對數損失函數時，經驗最小化等價于極大似然估計。

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

$L(w) = \frac{1}{2} \sum{^N_{i=1}}(f(x_i,w)-y_i)^2$ （1.18）

$R_{exp}(\hat f) = E_p[L(Y,\hat f(X))] = \int _{x*y}L(y,\hat f(x))P(x,y)dxdy$ (1.20)

$R(f) = E[L(Y,f(X))]$ (1.21)

$\hat R(f) = \frac{1}{N} \sum{^N_{i=1}}L(y_i,f(x_i))]$ (1.22)

$R(f) \le \hat R(f)+ \varepsilon(d,N,\delta)$ (1.25)

$\varepsilon(d,N,\delta) = \sqrt{\frac{1}{2N}(log d+log\frac{1}{\delta})}$ (1.26)

精確率定義為： $P = \frac{TP}{TP+FP}$

召回率定義為： $R = \frac{TP}{TP+FN}$

《統計學習方法》第1章課后題