〇、說(shuō)明
極大似然估計(jì)(Maximum Likelihood Estimation,MLE),也稱最大似然估計(jì)。統(tǒng)計(jì)學(xué)中,極大似然估計(jì)是重要的參數(shù)估計(jì)方法;機(jī)器學(xué)習(xí)領(lǐng)域,也經(jīng)常看到直接使用極大似然估計(jì)以及使用極大似然思想的方法。
在這篇筆記里,主要涉及極大似然的思想和非參數(shù)極大似然估計(jì)NPMLE。
如有錯(cuò)誤疏漏,煩請(qǐng)指出。如要轉(zhuǎn)載,請(qǐng)聯(lián)系筆者,hpfhepf@gmail.com。
一、常規(guī)極大似然估計(jì)
1.1、問(wèn)題描述
在參數(shù)估計(jì)[1]任務(wù)中,極大似然估計(jì)在給定樣本且已知概率分布(密度)條件下,估計(jì)分布參數(shù)的重要方法。
(在機(jī)器學(xué)習(xí)中,會(huì)用到未知概率分布(密度)的極大似然估計(jì),見(jiàn)下文)
1.2、極大似然思想
極大似然估計(jì)的核心思想,就是估計(jì)出使樣本出現(xiàn)概率最大的參數(shù)作為分布(密度)參數(shù);從另一個(gè)角度,極大似然估計(jì)認(rèn)為已經(jīng)發(fā)生的(這些樣本出現(xiàn))就是是概率最大的,從而求出分布(密度)參數(shù)。
1.3、極大似然估計(jì)
極大似然估計(jì)在絕大多數(shù)概率論或統(tǒng)計(jì)課程中都有詳細(xì)的介紹,我這里就不贅述了,具體參見(jiàn)課本和網(wǎng)上資料。
這里貼幾個(gè)還不錯(cuò)的網(wǎng)上資料:
維基百科《極大似然估計(jì)》[2]
《最大似然估計(jì)》[3]
二、非參數(shù)極大似然估計(jì)
2.1、緣起
筆者在參考李航博士《統(tǒng)計(jì)學(xué)習(xí)方法》[4]學(xué)習(xí)最大熵模型,遇到條件概率P(Y|X)的對(duì)數(shù)似然函數(shù)(6.2.4節(jié))時(shí),真的是一頭霧水。如下圖
一直接觸的極大似然估計(jì)都是已知模型,通過(guò)樣本求參數(shù)。而這個(gè)似然函數(shù),模型未知,參數(shù)未知,更不知道是怎么來(lái)的,懵圈了。。。
2.2、搜尋
為了搞清楚這個(gè)問(wèn)題,查閱了《統(tǒng)計(jì)學(xué)習(xí)方法》的參考文獻(xiàn)《A Maximum Entropy Approach to Natural Language Processing》[5],也沒(méi)有搞清楚這個(gè)問(wèn)題。
后來(lái)各種關(guān)鍵字在google上搜,終于搜到了比較靠譜的信息,大概如下:
https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf[6]
http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf[7]
http://statweb.stanford.edu/~owen/empirical/[8]
這大概是一個(gè)經(jīng)驗(yàn)似然(Empirical Likelihood)問(wèn)題,但是有點(diǎn)艱深,筆者并不打算深入挖掘下去,只是從機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)的角度搞清楚上述公式的由來(lái)。筆者看到了[4]的第一個(gè)公式,終于明白了李航博士書(shū)中公式的由來(lái),如下。
2.3、NPMLE
非參數(shù)極大似然估計(jì)(Non-Parametric Maximum Likelihood Estimation,NPMLE),在大多數(shù)初級(jí)的概率論課本里是沒(méi)有的。
這里根據(jù)常規(guī)MLE的假設(shè)和建模過(guò)程,來(lái)簡(jiǎn)略推導(dǎo)NPMLE的似然函數(shù)。下圖[3]為常規(guī)MLE的假設(shè)和似然函數(shù)建模過(guò)程。
參考常規(guī)MLE,假設(shè)非參數(shù)的分布有相同的采樣,但沒(méi)有參數(shù)。
附錄
參考
[1]、百度百科《參數(shù)估計(jì)》
[2]、維基百科《極大似然估計(jì)》
[3]、《最大似然估計(jì)》
[4]、李航《統(tǒng)計(jì)學(xué)習(xí)方法》
[5]、Adam L. Berger, Stephen A. Della Pietra《A Maximum Entropy Approach to Natural Language Processing》
[6]、https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf