關(guān)于統(tǒng)計(jì)學(xué)習(xí)流程步驟的幾點(diǎn)看法!

統(tǒng)計(jì)學(xué)、大數(shù)據(jù)應(yīng)用很廣泛,常常被提及!統(tǒng)計(jì)學(xué)習(xí)也有一定的規(guī)律流程,下面我們大圣眾包小編分享一位朋友關(guān)于統(tǒng)計(jì)學(xué)習(xí)流程步驟的看法,看看他怎么說(shuō)。

統(tǒng)計(jì)學(xué)習(xí)現(xiàn)在市面上談?wù)摰降臄?shù)據(jù)挖掘基本上都是基于統(tǒng)計(jì)學(xué)習(xí)的監(jiān)督學(xué)習(xí)或非監(jiān)督學(xué)習(xí)問(wèn)題。尤其以監(jiān)督學(xué)習(xí)應(yīng)用面更廣。

統(tǒng)計(jì)學(xué)習(xí)的一般流程

得到一個(gè)有限的數(shù)據(jù)集合

確定所有的學(xué)習(xí)模型集合

確定模型選擇的準(zhǔn)則,就是學(xué)習(xí)的策略

實(shí)現(xiàn)求解最優(yōu)模型的算法并通過(guò)學(xué)習(xí)方法選擇最優(yōu)模型

利用學(xué)習(xí)得到的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行分析或預(yù)測(cè)

步驟一:得到一個(gè)有限的數(shù)據(jù)集合

涉及到以下多個(gè)流程:

1、數(shù)據(jù)的采集

2、原始數(shù)據(jù)的格式化、標(biāo)準(zhǔn)化

3、原始去噪,去掉錯(cuò)誤的值(而不是誤差值,這里又涉及到一個(gè)復(fù)雜的問(wèn)題,如何界定錯(cuò)誤數(shù)據(jù))

4、預(yù)處理(針對(duì)具體需要研究的問(wèn)題、抽取相應(yīng)地特征組成需要研究的數(shù)據(jù)集合)

步驟二:確定所有的學(xué)習(xí)模型集合

這個(gè)問(wèn)題取決于我們選擇怎么樣的學(xué)習(xí)方法。常見得學(xué)習(xí)方法有:

1、感知機(jī)模型

2、k近鄰法

3、樸素貝葉斯法

4、決策樹

5、邏輯斯諦回歸和最大熵模型

6、支持向量機(jī)

7、提升方法AdaBoost

8、EM算法

9、隱馬爾可夫模型

10、條件隨機(jī)場(chǎng)

而且這些算法還可以進(jìn)行變異、組合然后形成新的算法模型。也是通常認(rèn)為中數(shù)據(jù)挖掘比較核心的部分。

步驟三:確定模型選擇的策略

一般來(lái)說(shuō),當(dāng)你確定了你的學(xué)習(xí)方法后,在學(xué)習(xí)的過(guò)程中會(huì)產(chǎn)生很多個(gè)模型。而如何在這些模型中間挑選最優(yōu)的模型,成為了我們亟待解決的問(wèn)題。

一般衡量一個(gè)模型的優(yōu)秀程度我們使用兩個(gè)指標(biāo):

1、擬合能力

2、泛化能力

擬合能力

表示模型的計(jì)算結(jié)果和實(shí)際結(jié)果的相差程度,我們一般使用風(fēng)險(xiǎn)函數(shù)來(lái)衡量。而風(fēng)險(xiǎn)函數(shù)是損失函數(shù)的期望。所以我們其實(shí)是使用損失函數(shù)來(lái)衡量一個(gè)模型的期望。

常見的損失函數(shù):

1、0-1損失函數(shù)

2、平分損失函數(shù)

3、絕對(duì)值損失函數(shù)

4、對(duì)數(shù)損失函數(shù)

損失函數(shù)越小,模型的擬合能力就越好。

泛化能力泛化能力是指模型對(duì)新數(shù)據(jù)的預(yù)測(cè)能力。一般來(lái)說(shuō),越復(fù)雜的模型的擬合能力越強(qiáng),但是泛化能力越弱。所以我們需要選擇一個(gè)適當(dāng)復(fù)雜度的模型,使其泛化能力和擬合能力都足夠強(qiáng)。

而衡量一個(gè)模型同時(shí)具有較好地泛化能力和擬合能力,我們一般用結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)。

結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)是在風(fēng)險(xiǎn)函數(shù)的基礎(chǔ)上面加上一個(gè)罰項(xiàng)。通過(guò)罰項(xiàng)來(lái)降低復(fù)雜度高的模型的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)值。從而達(dá)到篩選出合適的復(fù)雜度的模型的目的。

罰項(xiàng)一般取特征空間w的范數(shù),一般有:

1、L0范數(shù)

2、L1范數(shù)

3、L2范數(shù)

4、核范數(shù)…

步驟四:實(shí)現(xiàn)求解最優(yōu)模型的算法并通過(guò)學(xué)習(xí)方法選擇最優(yōu)模型

求解最優(yōu)模型的算法其實(shí)就是求解結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)最小值得算法,即結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)最優(yōu)化的問(wèn)題。

如果結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)在我們所關(guān)心的區(qū)域中是凸函數(shù)的話,那么任何局部最小解也是全局最優(yōu)解。現(xiàn)在已經(jīng)有穩(wěn)定,快速的數(shù)值計(jì)算方法來(lái)求二次可微地凸函數(shù)的最小值。

然而,很多時(shí)候我們沒有辦法通過(guò)結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)直接算出它的最小值。我們只能通過(guò)一些迭代的方式獲得局部最優(yōu)解。

常見的通過(guò)迭代的方式獲得局部最優(yōu)解的算法有:

1、梯度下降法

2、牛頓法

3、共軛梯度法

4、線性搜索

5、置信域方法

另外還有一些算法:

1、模擬退火

2、遺傳算法

3、類免疫算法

4、演化策略

5、差異演化算法

6、微粒群算法

7、神經(jīng)網(wǎng)絡(luò)

8、支持向量機(jī)

步驟五:利用學(xué)習(xí)得到的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行分析或預(yù)測(cè)

到這一步一般來(lái)說(shuō)已經(jīng)成功了,然后往往現(xiàn)實(shí)是殘酷的,辛辛苦苦20年,一朝回到解放前。

往往學(xué)習(xí)得到的模型在實(shí)際使用過(guò)程當(dāng)中并不是那么的理想。這里面有很多種原因:

有可能是原始數(shù)據(jù)的原因

有可能是特征選擇的原因

有可能是模型的原因

有可能是最優(yōu)模型算法的問(wèn)題

有可能是代碼錯(cuò)誤

總之,以上的所有步驟的所有細(xì)節(jié)都可能導(dǎo)致你的模型不夠優(yōu)秀。這就需要你再次的思考這個(gè)問(wèn)題,去不斷的優(yōu)化你的模型。直到得到一個(gè)不錯(cuò)的模型。

小結(jié)

其實(shí)數(shù)據(jù)挖掘涉及的東西遠(yuǎn)比我上面說(shuō)的這點(diǎn)東西多的多,我上面提到的還只是監(jiān)督學(xué)習(xí)。就光我上面提到的幾個(gè)步驟。其實(shí)每一個(gè)步驟都有很多很多東西可以講,可以研究,工程方面的、算法理論方面的等等等等。

一入數(shù)據(jù)挖掘深似海,從此奮斗到天明。

數(shù)據(jù)挖掘還是很有意思的,你可以用機(jī)器的力量、數(shù)學(xué)的力量理解世界的運(yùn)行規(guī)律。去預(yù)測(cè)他或者利用你研究到的東西做一些有意思的事情。

原文地址:http://www.dashengzb.cn/articles/a-369.html

(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書,可添加個(gè)人微信號(hào)(dashenghuaer))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,488評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,034評(píng)論 3 414
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,327評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,554評(píng)論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,337評(píng)論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,883評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,975評(píng)論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,114評(píng)論 0 286
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,625評(píng)論 1 332
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,555評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,737評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,244評(píng)論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 43,973評(píng)論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,362評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,615評(píng)論 1 280
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,343評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,699評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容