從概率的角度看多項(xiàng)式曲線擬合。
我們要假定:給定的值,對(duì)應(yīng)的
值服從高斯分布,分布的均值為
:
我們現(xiàn)在使用訓(xùn)練數(shù)據(jù){},通過最大似然方法,來決定參數(shù)
和
的值,似然函數(shù)為:
對(duì)數(shù)似然函數(shù)為:
通過略去最后兩項(xiàng),因?yàn)樗鼈兒?img class="math-inline" src="https://math.jianshu.com/math?formula=w" alt="w" mathimg="1">無關(guān),以及便于數(shù)學(xué)計(jì)算進(jìn)行數(shù)字代換后:
為精度參數(shù)。
我們又一次:
首先確定控制均值的參數(shù)向量,然后使用這個(gè)結(jié)果來尋找精度
。
已經(jīng)確定了和
,那么我們可以對(duì)新的
值進(jìn)行預(yù)測(cè)。
預(yù)測(cè)分布通過最大似然參數(shù)代入公式給出:
現(xiàn)在我們朝著貝葉斯的方向前進(jìn)一步,引入在多項(xiàng)式系數(shù)上的先驗(yàn)分布:
其中是分布的精度,是對(duì)于階多項(xiàng)式的向量的元素的總數(shù)。使用貝葉斯定理,的后驗(yàn)概率正比于先驗(yàn)分布和似然函數(shù)的乘積:
因此,給定數(shù)據(jù)集,我們現(xiàn)在通過尋找最可能的值(即最大化后驗(yàn)概率)來確定,這種技術(shù)被稱為最大后驗(yàn),簡(jiǎn)稱MAP。
因此最大化后驗(yàn)概率就是最小化下式:
因此正則化參數(shù)就是:
1.2.6貝葉斯曲線擬合
在曲線擬合中,我們知道訓(xùn)練數(shù)據(jù)和
,對(duì)于一個(gè)新的測(cè)試點(diǎn)
,我們想預(yù)測(cè)出
,因此我們想估計(jì)預(yù)測(cè)分布:
,因此簡(jiǎn)單的說,貝葉斯分布就是使用概率的加和規(guī)則和乘積規(guī)則,將概率預(yù)測(cè)寫成以下形式:
其中:
通過解析求解,預(yù)測(cè)分布的高斯形式為:
其中,均值和方差分別為:
這里矩陣S由下式給出:
其中為單位矩陣。
1.3 模型選擇
在許多實(shí)際應(yīng)用中,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)都是有限的,為了簡(jiǎn)歷更好地模型,我們想盡可能多的可得到的數(shù)據(jù)進(jìn)行訓(xùn)練。解決這種困境的方法就是使用交叉驗(yàn)證。
這種方法能夠讓可得到的數(shù)據(jù)的用于訓(xùn)練,同時(shí)使用所有的數(shù)據(jù)來評(píng)估表現(xiàn),當(dāng)數(shù)據(jù)比較稀疏的時(shí)候,考慮
的情況很合適,其中
是數(shù)據(jù)點(diǎn)的總數(shù),這種方法叫作“留一法”。
交叉驗(yàn)證的一個(gè)缺點(diǎn)是:需要訓(xùn)練的次數(shù)隨著的增加而增加,這對(duì)于訓(xùn)練本身很耗時(shí)的問題來說是個(gè)大問題。因此我們需要找到一種模型表現(xiàn)的度量,它只依賴于訓(xùn)練數(shù)據(jù),并且不會(huì)由于過擬合產(chǎn)生偏移的問題。
增加一個(gè)懲罰項(xiàng)來補(bǔ)償過于復(fù)雜的模型造成的過擬合。
例如:赤池信息準(zhǔn)則(AIC)
其中,是最合適的對(duì)數(shù)似然函數(shù),
是模型中可調(diào)節(jié)參數(shù)的數(shù)量。這個(gè)量是一個(gè)變體,被稱為貝葉斯信息準(zhǔn)則(BIC)。
1.4維度災(zāi)難
通過上升維度的方法進(jìn)行點(diǎn)標(biāo)簽的劃分存在很多問題:
如果我們把空間的區(qū)域劃分為一個(gè)個(gè)的單元格,那么這些單元格的數(shù)量會(huì)隨著空間的維數(shù)以指數(shù)的形式增大。
指數(shù)級(jí)遞增!
我們?cè)谌S空間中建立的幾何直覺會(huì)在考慮高維空間時(shí)不起作用。例如,考慮D維空間的一個(gè)半徑r = 1的球體,請(qǐng)問,位于半徑r = 1- ?和半徑r = 1之間的部分占球的總體積的百分比是多少?我們注意到,D維空間的半徑為r的球體的體積一定是的倍數(shù),因此我們有:
其中常數(shù)值依賴于。因此我們要求解的體積比就是:
結(jié)合上圖發(fā)現(xiàn):
在高維空間中,一個(gè)球體的大部分體積都聚集在表面附近的薄球殼上。
高維空間產(chǎn)生的這種困難被稱為維度災(zāi)難。因此需要注意的是:不是所有在低維空間的直覺都可以推廣到高維空間。
雖然維度災(zāi)難在模式識(shí)別應(yīng)用中是一個(gè)重要的問題,但是它并不能阻止我們尋找高維空間的有效技術(shù)。原因有兩個(gè)方面:
1.真實(shí)的數(shù)據(jù)經(jīng)常被限制在有著較低的有效維度的空間內(nèi),特別地,在目標(biāo)值發(fā)生重要變化的方向上也會(huì)有這種限制。
2.真實(shí)數(shù)據(jù)往往比較光滑,因此在大多數(shù)情況下,對(duì)于輸入變量微小的變化,目標(biāo)值的改變也很小,因此對(duì)于新的輸入變量,我們可以通過局部的類似插值的技術(shù)來進(jìn)行預(yù)測(cè)。
1.5 決策論
我們已經(jīng)在1.2節(jié)中看到了概率論是如何提供給我們一個(gè)自始至終的數(shù)學(xué)框架來量化和計(jì)算不確定性。當(dāng)決策論與概率論結(jié)合起來的時(shí)候,我們能夠在不確定性的情況下做出最優(yōu)的決策。
假設(shè)我們有一個(gè)輸入向量和對(duì)應(yīng)的目標(biāo)值向量
,我們的目標(biāo)就是對(duì)于一個(gè)新的
值,預(yù)測(cè)
。
決策論的主題:在給定合適的概率的前提下,如何進(jìn)行最優(yōu)的決策。
利用貝葉斯定理:
注意:出現(xiàn)在貝葉斯定理中的任意一個(gè)量都可以從聯(lián)合分布中得到,要么通過積分的形式,要么通過關(guān)于某個(gè)合適的變量求條件概率。我們現(xiàn)在把稱為類的先驗(yàn)概率, 把稱為對(duì)應(yīng)的后驗(yàn)概率。
1.5.1 最小化錯(cuò)誤分類率
我們的目標(biāo)很簡(jiǎn)單:盡可能少地作出錯(cuò)誤的分類。我們需要一個(gè)規(guī)則將每個(gè)的值劃分到一個(gè)合適的類別,這種規(guī)則將輸入空間切分成不同的區(qū)域
,這種區(qū)域被稱為決策區(qū)域。決策區(qū)域間的邊界被稱為決策邊界或者決策面。
我們把錯(cuò)誤分為
的概率為:
很明顯,為了最小化,我們對(duì)于
的分類結(jié)果應(yīng)該讓上式的被積函數(shù)盡量小,因此,對(duì)于給定的
值,如果
>
,那么我們就把
分到類別
中。根據(jù)概率的乘積規(guī)則,我們有
=
。
因此我們可以這樣表述:
如果我們把每個(gè)分配到后驗(yàn)概率
最大的類別中,那么我們分類錯(cuò)誤的概率就會(huì)最小。
對(duì)于更一般的K類的情形,最大化正確率會(huì)稍微簡(jiǎn)單一些,即最大化下式:
當(dāng)區(qū)域的選擇使得每個(gè)
都被分到使
最大的類別中,上式取得最大值。再一次使用乘積規(guī)則
=
,并且注意到因子
對(duì)于所有項(xiàng)都相同,我們可以看到每個(gè)
都應(yīng)該被分到有著最大后驗(yàn)概率
的類別中。
1.5.2最小化期望損失
對(duì)于不同的實(shí)際問題,我們對(duì)于錯(cuò)誤的容忍度不同。我們可以通過損失函數(shù)來形式化的描述這些問題,損失函數(shù)也被稱為代價(jià)函數(shù),是對(duì)于所有可能的決策或者動(dòng)作可能產(chǎn)生的損失的一種整體的度量。
這個(gè)特別的損失矩陣表明,如果我們做出了正確的決策,那么不會(huì)造成損失。如果健康人被診斷為患有癌癥,那么損失為1。但是如果一個(gè)患有癌癥的病人被診斷為健康,那么損失為1000。
最優(yōu)解是使損失函數(shù)最小的解。但是損失函數(shù)依賴于真實(shí)的類別,這是未知的,對(duì)于一個(gè)給定的歌輸入向量,我們對(duì)于真實(shí)類別的不確定性通過聯(lián)合概率分布
表示。因此,我們轉(zhuǎn)而去最小化平均損失,平均損失根據(jù)這個(gè)聯(lián)合概率分布計(jì)算,定義為:
每一個(gè)可以被獨(dú)立地分到?jīng)Q策區(qū)域
中,我們的目標(biāo)是選擇區(qū)域
,來最小化區(qū)域
。這表明,對(duì)于每個(gè)
,我們要最小化
,和之前一樣我們可以使用乘積規(guī)則
=
來消除共同因子
。因此,最小化期望損失的決策規(guī)則是對(duì)于每個(gè)新的
,把它分到能使下式取得最小值的第
類:
一旦我們知道了后驗(yàn)概率后,這件事就很容易了。
1.5.3 拒絕選項(xiàng)
例如:在醫(yī)療例子中,一種合適的做法是:使用自動(dòng)化系統(tǒng)來對(duì)那些毫無疑問的X光片進(jìn)行分類,然后把不容易分類的X光片留給人類的專家。我們可以使用以下方式實(shí)現(xiàn)這個(gè)目的:
引入一個(gè)閾值,拒絕后驗(yàn)概率
的最大值小于等于
的那些輸入
。
注意:令會(huì)使所有樣本被拒絕,而如果有
個(gè)類別,那么令
將會(huì)確保沒有樣本被拒絕,因此被拒絕的樣本比例由
的值控制。
1.5.4 推斷和決策
我們已經(jīng)把分類問題劃分了兩個(gè)階段:
推斷階段和決策階段。
- 推斷階段:使用訓(xùn)練數(shù)據(jù)學(xué)習(xí)
- 決策階段:使用后驗(yàn)概率來進(jìn)行最優(yōu)的分類
另一種可能的方法是同時(shí)解決兩個(gè)問題,即簡(jiǎn)單地學(xué)習(xí)一個(gè)函數(shù),將輸入直接映射為決策,這樣的函數(shù)被稱為判別函數(shù)。
事實(shí)上,我們可以區(qū)分出三種不同的方法來解決決策問題,這三種方法都已經(jīng)在實(shí)際問題中被采用,這三種方法按照復(fù)雜度降低的順序給出:
(a)首先對(duì)于每個(gè)類別,獨(dú)立地確定類條件密度
。這是一個(gè)推斷問題,然后,推斷先驗(yàn)類概率
,之后,使用貝葉斯定理:
求出后驗(yàn)概率,和往常一樣,貝葉斯定理的分母可以用分子中出現(xiàn)的項(xiàng)表示,因?yàn)椋?div id="y5aoc5w" class="image-package">