無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)的目標(biāo)
利用無標(biāo)簽的數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)的分布或數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系被稱作無監(jiān)督學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的最大區(qū)別就在于數(shù)據(jù)是否有標(biāo)簽
無監(jiān)督學(xué)習(xí)最常應(yīng)用的場景是聚類(clustering)和降維(Dimension reduction)
聚類是根據(jù)數(shù)據(jù)相似性間數(shù)據(jù)分為多類的過程。
評估兩個不同樣本之間的“相似性”,通常使用的方法就是計算兩個樣本之間的“距離”,
使用不同的方法計算樣本見得距離會關(guān)系到聚類結(jié)果的好壞。
常用方法
歐氏距離:最常用的距離度量方法,源于歐式空間中兩點(diǎn)的距離

image.png

曼哈頓距離:城市街區(qū)距離,類似于在城市之中駕車行駛,從一個十字路口到另一個十字路口的距離。其計算方法如下:


image.png

馬氏距離表示數(shù)據(jù)協(xié)方差距離,是一種尺度無關(guān)的度量放肆,也就是說,馬氏距離會先將樣本點(diǎn)的各個屬性標(biāo)準(zhǔn)化,再計算樣本之間的距離。其計算方式如下:

image.png

夾角余弦
余弦相似度用向量空間中兩個兩個向量夾腳的余弦值作為衡量兩個樣本差異的大小。
余弦值越接近為1,說明兩個響亮夾角越接近零度,表明兩個向量越相似。
其計算方法如下:

image.png

sklearn vs 聚類
scikit聚類和分類都是無監(jiān)督學(xué)習(xí)
scikit_learn庫(簡稱sklearn庫)提供常用的聚類算法函數(shù)包含在sklearn.cluster這模塊中,如:K_Means,近鄰傳播算法,DBSCAN,等。
以同樣的數(shù)據(jù)集應(yīng)用于不同的算法可能會得到不同的結(jié)果,算法所消耗的時間也不盡相同,這是由算法特性決定的。

sklearn.cluster模塊提供的各聚類算法函數(shù)可以使用不同的數(shù)據(jù)形式作為輸入:
標(biāo)準(zhǔn)數(shù)據(jù)輸入格式:[樣本數(shù)目,特征數(shù)目]定義的矩陣形式,矩陣中的每一個元素為兩個樣本的相似度,如DBSCAN , AffinityPropagation(近鄰傳播算法)接受這種輸入。如果以余弦相似度為例,對角線元素全為1,矩陣中每個元素的取值范圍為【0,1】

image.png

sklearn.cluster
算法名稱 參數(shù) 可擴(kuò)展性 相似度度量
K-means 聚類個數(shù) 大數(shù)據(jù)規(guī)模 點(diǎn)間距離
DBSCAN 鄰域大小 大規(guī)模數(shù)據(jù) 點(diǎn)間距離
Gaussian聚類個數(shù)及其他超參 復(fù)雜度高,不適合處理大規(guī)模數(shù)據(jù) 馬氏距離
MIixtures
Birth 分支因子,閾值等其他超參 大規(guī)模數(shù)據(jù) 兩點(diǎn)之間的歐式距離
降維,降維就是在保證數(shù)據(jù)具有的帶百姓特性或者分布的情況下,將高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)的過程:
數(shù)據(jù)可視化
精簡數(shù)據(jù)

聚類和降維都是無監(jiān)督學(xué)習(xí)的典型任務(wù),任務(wù)之間存在著關(guān)聯(lián),比如某些高位數(shù)據(jù)的聚類可以通過降維處理更好的獲得,另外學(xué)界研究也表明代表性的聚類算法如K-means與降維算法之間存在等價性。
降維是機(jī)器學(xué)習(xí)靈位的一個重要研究內(nèi)容,有很多北工業(yè)界和學(xué)術(shù)界接受的典型算法,截止到目前sklearn庫提供7種降維算法。
將為過程中也可以被理解為對數(shù)據(jù)集的組成成分進(jìn)行分解的過程,因此sklearn庫為降維模快命名為decomposition ,在對降維算法調(diào)用需要使用sklearn.decompositon模快。

image.png

算法名稱 參數(shù)可擴(kuò)展性 適用任務(wù)
PCA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 信號處理
FastICA 所降維度及其他超參 超大規(guī)模數(shù)據(jù) 圖形圖像特征提取
NMF 所降維度及其他超參 大規(guī)模數(shù)據(jù) 圖形圖像特征提取
LDA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 文本數(shù)據(jù),主題挖掘

哪些是降維任務(wù)哪些是聚類任務(wù)?

31省市居民家庭消費(fèi)情況調(diào)查表
學(xué)生月上網(wǎng)時間分布調(diào)查表
人臉圖像特征抽取

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,119評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,382評論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,038評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,853評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,616評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,112評論 1 323
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,192評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,355評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,869評論 1 334
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,727評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,928評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,467評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,165評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,570評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,813評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,585評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,892評論 2 372

推薦閱讀更多精彩內(nèi)容