統(tǒng)計(jì)學(xué)、大數(shù)據(jù)應(yīng)用很廣泛,常常被提及!統(tǒng)計(jì)學(xué)習(xí)也有一定的規(guī)律流程,下面我們大圣眾包小編分享一位朋友關(guān)于統(tǒng)計(jì)學(xué)習(xí)流程步驟的看法,看看他怎么說(shuō)。
統(tǒng)計(jì)學(xué)習(xí)現(xiàn)在市面上談?wù)摰降臄?shù)據(jù)挖掘基本上都是基于統(tǒng)計(jì)學(xué)習(xí)的監(jiān)督學(xué)習(xí)或非監(jiān)督學(xué)習(xí)問(wèn)題。尤其以監(jiān)督學(xué)習(xí)應(yīng)用面更廣。
統(tǒng)計(jì)學(xué)習(xí)的一般流程
得到一個(gè)有限的數(shù)據(jù)集合
確定所有的學(xué)習(xí)模型集合
確定模型選擇的準(zhǔn)則,就是學(xué)習(xí)的策略
實(shí)現(xiàn)求解最優(yōu)模型的算法并通過(guò)學(xué)習(xí)方法選擇最優(yōu)模型
利用學(xué)習(xí)得到的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行分析或預(yù)測(cè)
步驟一:得到一個(gè)有限的數(shù)據(jù)集合
涉及到以下多個(gè)流程:
1、數(shù)據(jù)的采集
2、原始數(shù)據(jù)的格式化、標(biāo)準(zhǔn)化
3、原始去噪,去掉錯(cuò)誤的值(而不是誤差值,這里又涉及到一個(gè)復(fù)雜的問(wèn)題,如何界定錯(cuò)誤數(shù)據(jù))
4、預(yù)處理(針對(duì)具體需要研究的問(wèn)題、抽取相應(yīng)地特征組成需要研究的數(shù)據(jù)集合)
步驟二:確定所有的學(xué)習(xí)模型集合
這個(gè)問(wèn)題取決于我們選擇怎么樣的學(xué)習(xí)方法。常見得學(xué)習(xí)方法有:
1、感知機(jī)模型
2、k近鄰法
3、樸素貝葉斯法
4、決策樹
5、邏輯斯諦回歸和最大熵模型
6、支持向量機(jī)
7、提升方法AdaBoost
8、EM算法
9、隱馬爾可夫模型
10、條件隨機(jī)場(chǎng)
而且這些算法還可以進(jìn)行變異、組合然后形成新的算法模型。也是通常認(rèn)為中數(shù)據(jù)挖掘比較核心的部分。
步驟三:確定模型選擇的策略
一般來(lái)說(shuō),當(dāng)你確定了你的學(xué)習(xí)方法后,在學(xué)習(xí)的過(guò)程中會(huì)產(chǎn)生很多個(gè)模型。而如何在這些模型中間挑選最優(yōu)的模型,成為了我們亟待解決的問(wèn)題。
一般衡量一個(gè)模型的優(yōu)秀程度我們使用兩個(gè)指標(biāo):
1、擬合能力
2、泛化能力
擬合能力
表示模型的計(jì)算結(jié)果和實(shí)際結(jié)果的相差程度,我們一般使用風(fēng)險(xiǎn)函數(shù)來(lái)衡量。而風(fēng)險(xiǎn)函數(shù)是損失函數(shù)的期望。所以我們其實(shí)是使用損失函數(shù)來(lái)衡量一個(gè)模型的期望。
常見的損失函數(shù):
1、0-1損失函數(shù)
2、平分損失函數(shù)
3、絕對(duì)值損失函數(shù)
4、對(duì)數(shù)損失函數(shù)
損失函數(shù)越小,模型的擬合能力就越好。
泛化能力泛化能力是指模型對(duì)新數(shù)據(jù)的預(yù)測(cè)能力。一般來(lái)說(shuō),越復(fù)雜的模型的擬合能力越強(qiáng),但是泛化能力越弱。所以我們需要選擇一個(gè)適當(dāng)復(fù)雜度的模型,使其泛化能力和擬合能力都足夠強(qiáng)。
而衡量一個(gè)模型同時(shí)具有較好地泛化能力和擬合能力,我們一般用結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)。
結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)是在風(fēng)險(xiǎn)函數(shù)的基礎(chǔ)上面加上一個(gè)罰項(xiàng)。通過(guò)罰項(xiàng)來(lái)降低復(fù)雜度高的模型的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)值。從而達(dá)到篩選出合適的復(fù)雜度的模型的目的。
罰項(xiàng)一般取特征空間w的范數(shù),一般有:
1、L0范數(shù)
2、L1范數(shù)
3、L2范數(shù)
4、核范數(shù)…
步驟四:實(shí)現(xiàn)求解最優(yōu)模型的算法并通過(guò)學(xué)習(xí)方法選擇最優(yōu)模型
求解最優(yōu)模型的算法其實(shí)就是求解結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)最小值得算法,即結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)最優(yōu)化的問(wèn)題。
如果結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)在我們所關(guān)心的區(qū)域中是凸函數(shù)的話,那么任何局部最小解也是全局最優(yōu)解。現(xiàn)在已經(jīng)有穩(wěn)定,快速的數(shù)值計(jì)算方法來(lái)求二次可微地凸函數(shù)的最小值。
然而,很多時(shí)候我們沒有辦法通過(guò)結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)直接算出它的最小值。我們只能通過(guò)一些迭代的方式獲得局部最優(yōu)解。
常見的通過(guò)迭代的方式獲得局部最優(yōu)解的算法有:
1、梯度下降法
2、牛頓法
3、共軛梯度法
4、線性搜索
5、置信域方法
另外還有一些算法:
1、模擬退火
2、遺傳算法
3、類免疫算法
4、演化策略
5、差異演化算法
6、微粒群算法
7、神經(jīng)網(wǎng)絡(luò)
8、支持向量機(jī)
步驟五:利用學(xué)習(xí)得到的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行分析或預(yù)測(cè)
到這一步一般來(lái)說(shuō)已經(jīng)成功了,然后往往現(xiàn)實(shí)是殘酷的,辛辛苦苦20年,一朝回到解放前。
往往學(xué)習(xí)得到的模型在實(shí)際使用過(guò)程當(dāng)中并不是那么的理想。這里面有很多種原因:
有可能是原始數(shù)據(jù)的原因
有可能是特征選擇的原因
有可能是模型的原因
有可能是最優(yōu)模型算法的問(wèn)題
有可能是代碼錯(cuò)誤
總之,以上的所有步驟的所有細(xì)節(jié)都可能導(dǎo)致你的模型不夠優(yōu)秀。這就需要你再次的思考這個(gè)問(wèn)題,去不斷的優(yōu)化你的模型。直到得到一個(gè)不錯(cuò)的模型。
小結(jié)
其實(shí)數(shù)據(jù)挖掘涉及的東西遠(yuǎn)比我上面說(shuō)的這點(diǎn)東西多的多,我上面提到的還只是監(jiān)督學(xué)習(xí)。就光我上面提到的幾個(gè)步驟。其實(shí)每一個(gè)步驟都有很多很多東西可以講,可以研究,工程方面的、算法理論方面的等等等等。
一入數(shù)據(jù)挖掘深似海,從此奮斗到天明。
數(shù)據(jù)挖掘還是很有意思的,你可以用機(jī)器的力量、數(shù)學(xué)的力量理解世界的運(yùn)行規(guī)律。去預(yù)測(cè)他或者利用你研究到的東西做一些有意思的事情。
原文地址:http://www.dashengzb.cn/articles/a-369.html
(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書,可添加個(gè)人微信號(hào)(dashenghuaer))