第一次的機器學習:機器學習基礎概念和名詞

盡管機器學習從分類上而言只是人工智能(也就是常說的AI)的分支之一,但其本身也是一個相當巨大的命題。在未來的一段時間里,我將花時間在專欄寫一些我比較熟悉的機器學習相關的概念和算法,最主要的目的是為了梳理自己的知識體系,也是希望和大家分享學習的歷程和感悟,以達到交流的目的。

這兩年大數(shù)據(jù)火了,機器學習、神經(jīng)網(wǎng)絡、數(shù)據(jù)挖掘、強化學習等等這些名詞都火了,然而我常常在想,把這些名詞掛在嘴邊的我們,究竟能否在這個領域飛速發(fā)展的情況下,清楚地了解到自己說的每一個名詞——誰是誰的分支,哪個和哪個又是同等關系或是沒有關系的——在名詞爆炸的狀態(tài)下,想學什么,了解其基礎概念是必不可少的。

與數(shù)據(jù)相關的概念

假如我們有一組天氣數(shù)據(jù),是來自全世界不同國家和地區(qū)的每日天氣,內(nèi)容包括最高溫度、最低溫度、平均濕度、風速之類的相關數(shù)據(jù),例如數(shù)據(jù)的一部分是這樣的:

城市 最高溫度 最低溫度 相對濕度 某時刻風速
A市 36℃ 28℃ 58% 16.7km/h
B市 28℃ 17℃ 86% /
C市 34℃ 29℃ 39% 20.4km/h

在這組數(shù)據(jù)中,我們將稱A市、B市、C市等市以及其情況的總和稱為數(shù)據(jù)集(data set)。表格中的每一行,也就是某城市和它的情況被稱為一個樣例(sample/instance)。表格中的每一列(不包括城市),例如最高溫度、最低溫度,被稱為特征(feature/attribute),而每一列中的具體數(shù)值,例如36℃ 、28℃,被稱為屬性值(attribute value)。數(shù)據(jù)中也可能會有缺失數(shù)據(jù)(missing data),例如B市的某時刻風速,我們會將它視作缺失數(shù)據(jù)。

如果我們想預測城市的天氣,例如是晴朗還是陰雨天,這些數(shù)據(jù)是不夠的,除了特征以外,我們還需要每個城市的具體天氣情況,也就是通常語境下的結(jié)果。在機器學習中,它會被稱為標簽(label),用于標記數(shù)據(jù)。值得注意的是,數(shù)據(jù)集中不一定包含標簽信息,而這種區(qū)別會引起方法上的差別。我們可以給上述示例加上一組標簽:

城市 天氣
A市 晴朗
B市 陰雨
C市 晴朗

視具體情況,用來進行機器學習的一個數(shù)據(jù)集往往會被分為兩個數(shù)據(jù)集——訓練數(shù)據(jù)(training data)測試數(shù)據(jù)(testing data)。 顧名思義,訓練數(shù)據(jù)在機器學習的過程中使用,目的是找出一套機器學習的方法;而測試數(shù)據(jù)用于判斷找出的方法是否足夠有效。如果在訓練的過程中需要確定方法的準確度,有時會將訓練數(shù)據(jù)分成訓練集(training set)驗證集(validation set)——驗證集合測試數(shù)據(jù)不同的地方在于驗證集在訓練過程中使用,而測試數(shù)據(jù)事實上是在模型建立后才被使用的。

與方法相關的概念

根據(jù)數(shù)據(jù)有沒有標簽,我們可以將機器學習分類為監(jiān)督學習(Supervised Learning)無監(jiān)督學習(Unsupervised Learning)半監(jiān)督學習(Semi-Supervised Learning)

監(jiān)督學習是學習給定標簽的數(shù)據(jù)集,比如說有一組病人,給出他們的詳細資料,將他們是否已確診癌癥作為標簽,然后預測一名(其他的)病人是否會患有癌癥,就是一種典型的監(jiān)督學習。監(jiān)督學習中也有不同的分類,如果我們訓練的結(jié)果是得癌癥和不得癌癥之類離散的類型,則稱為分類(Classification),如果只有兩種類型的話可以進一步稱為二分類(Binary Classification);如果我們訓練的結(jié)果是得癌癥的概率為0.87之類連續(xù)的數(shù)字,則稱為回歸(Regression)

無監(jiān)督學習是學習沒有標簽的數(shù)據(jù)集,比如在分析大量語句之后,訓練出一個模型將較為接近的詞分為一類,而后可以根據(jù)一個新的詞在句子中的用法(和其他信息)將這個詞分入某一類中。其中比較微妙的地方在于,這種問題下使用聚類(Clustering)(方法)所獲得的簇(Cluster)(結(jié)果),有時候是無法人為地觀察出其特征的,但是在得到聚類后,可能會對數(shù)據(jù)集有新的啟發(fā)。

半監(jiān)督學習的數(shù)據(jù)集比較特殊,是部分有標簽部分無標簽的數(shù)據(jù)集。由于有標簽的數(shù)據(jù)很多時候需要花大量人力物力去分類和生成,半監(jiān)督學習也被視作當前機器學習的重要部分。半監(jiān)督問題往往會利用一些假設,將半監(jiān)督學習轉(zhuǎn)化為傳統(tǒng)的監(jiān)督學習或非監(jiān)督學習問題。

與結(jié)果相關的概念

二分類問題

衡量結(jié)果精度的有一些相關術語,首當其沖的是準確率(Accuracy)精確率(Precision)召回率(Recall)。這三個詞匯應用于二分類問題:將數(shù)據(jù)分為正例(Positive Class)反例(Negative Class)

一張形象的維基百科圖:

也就是說,準確率是預測和標簽一致的樣本在所有樣本中所占的比例;精確率是你預測為正類的數(shù)據(jù)中,有多少確實是正類;召回率是所有正類的數(shù)據(jù)中,你預測為正類的數(shù)據(jù)有多少。這三個數(shù)據(jù)往往用來衡量一個二分類算法的優(yōu)劣。

回歸問題

回歸問題往往會通過計算誤差(Error)來確定模型的精確性。誤差由于訓練集和驗證集的不同,會被分為訓練誤差(Training Error)驗證誤差(Validation Error)。但值得注意的是,模型并不是誤差越小就一定越好,因為如果僅僅基于誤差,我們可能會得到一個過擬合(Overfitting)的模型;但是如果不考慮誤差,我們可能會得到一個欠擬合(Underfitting)的模型,用圖像來說的話大致可以這樣理解:

如果模型十分簡單,往往會欠擬合,對于訓練數(shù)據(jù)和測試數(shù)據(jù)的誤差都會很大;但如果模型太過于復雜,往往會過擬合,那么訓練數(shù)據(jù)的誤差可能相當小,但是測試數(shù)據(jù)的誤差會增大。好的模型應當平衡于這兩者之間:

聚類問題

聚類問題的標準一般基于距離:簇內(nèi)距離(Intra-cluster Distance)簇間距離(Inter-cluster Distance)。根據(jù)常識而言,簇內(nèi)距離是越小越好,也就是簇內(nèi)的元素越相似越好;而簇間距離越大越好,也就是說簇間(不同簇)元素越不相同越好。一般來說,衡量聚類問題會給出一個結(jié)合簇內(nèi)距離和簇間距離的公式。

總結(jié)

機器學習的基本概念并不多,但搞清楚具體每個算法適用于怎樣的數(shù)據(jù)、應當怎樣去評價是比較重要的一點。

在之后的專欄中,我們將更多的討論具體的算法,比較它們的優(yōu)劣,研究它們的局限性和適用性。

希望大家在了解機器學習的時候把一句話永遠放在心中:

All models are wrong but some are useful.

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,363評論 6 532
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,497評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,305評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,962評論 1 311
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,727評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,193評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,257評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,411評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,945評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,777評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,978評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,519評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,216評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,657評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,960評論 2 373

推薦閱讀更多精彩內(nèi)容