無監(jiān)督學(xué)習(xí)的目標(biāo)
利用無標(biāo)簽的數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)的分布或數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系被稱作無監(jiān)督學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的最大區(qū)別就在于數(shù)據(jù)是否有標(biāo)簽
無監(jiān)督學(xué)習(xí)最常應(yīng)用的場景是聚類(clustering)和降維(Dimension reduction)
聚類是根據(jù)數(shù)據(jù)相似性間數(shù)據(jù)分為多類的過程。
評估兩個不同樣本之間的“相似性”,通常使用的方法就是計算兩個樣本之間的“距離”,
使用不同的方法計算樣本見得距離會關(guān)系到聚類結(jié)果的好壞。
常用方法
歐氏距離:最常用的距離度量方法,源于歐式空間中兩點(diǎn)的距離
曼哈頓距離:城市街區(qū)距離,類似于在城市之中駕車行駛,從一個十字路口到另一個十字路口的距離。其計算方法如下:
馬氏距離表示數(shù)據(jù)協(xié)方差距離,是一種尺度無關(guān)的度量放肆,也就是說,馬氏距離會先將樣本點(diǎn)的各個屬性標(biāo)準(zhǔn)化,再計算樣本之間的距離。其計算方式如下:
夾角余弦
余弦相似度用向量空間中兩個兩個向量夾腳的余弦值作為衡量兩個樣本差異的大小。
余弦值越接近為1,說明兩個響亮夾角越接近零度,表明兩個向量越相似。
其計算方法如下:
sklearn vs 聚類
scikit聚類和分類都是無監(jiān)督學(xué)習(xí)
scikit_learn庫(簡稱sklearn庫)提供常用的聚類算法函數(shù)包含在sklearn.cluster這模塊中,如:K_Means,近鄰傳播算法,DBSCAN,等。
以同樣的數(shù)據(jù)集應(yīng)用于不同的算法可能會得到不同的結(jié)果,算法所消耗的時間也不盡相同,這是由算法特性決定的。
sklearn.cluster模塊提供的各聚類算法函數(shù)可以使用不同的數(shù)據(jù)形式作為輸入:
標(biāo)準(zhǔn)數(shù)據(jù)輸入格式:[樣本數(shù)目,特征數(shù)目]定義的矩陣形式,矩陣中的每一個元素為兩個樣本的相似度,如DBSCAN , AffinityPropagation(近鄰傳播算法)接受這種輸入。如果以余弦相似度為例,對角線元素全為1,矩陣中每個元素的取值范圍為【0,1】
sklearn.cluster
算法名稱 參數(shù) 可擴(kuò)展性 相似度度量
K-means 聚類個數(shù) 大數(shù)據(jù)規(guī)模 點(diǎn)間距離
DBSCAN 鄰域大小 大規(guī)模數(shù)據(jù) 點(diǎn)間距離
Gaussian聚類個數(shù)及其他超參 復(fù)雜度高,不適合處理大規(guī)模數(shù)據(jù) 馬氏距離
MIixtures
Birth 分支因子,閾值等其他超參 大規(guī)模數(shù)據(jù) 兩點(diǎn)之間的歐式距離
降維,降維就是在保證數(shù)據(jù)具有的帶百姓特性或者分布的情況下,將高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)的過程:
數(shù)據(jù)可視化
精簡數(shù)據(jù)
聚類和降維都是無監(jiān)督學(xué)習(xí)的典型任務(wù),任務(wù)之間存在著關(guān)聯(lián),比如某些高位數(shù)據(jù)的聚類可以通過降維處理更好的獲得,另外學(xué)界研究也表明代表性的聚類算法如K-means與降維算法之間存在等價性。
降維是機(jī)器學(xué)習(xí)靈位的一個重要研究內(nèi)容,有很多北工業(yè)界和學(xué)術(shù)界接受的典型算法,截止到目前sklearn庫提供7種降維算法。
將為過程中也可以被理解為對數(shù)據(jù)集的組成成分進(jìn)行分解的過程,因此sklearn庫為降維模快命名為decomposition ,在對降維算法調(diào)用需要使用sklearn.decompositon模快。
算法名稱 參數(shù)可擴(kuò)展性 適用任務(wù)
PCA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 信號處理
FastICA 所降維度及其他超參 超大規(guī)模數(shù)據(jù) 圖形圖像特征提取
NMF 所降維度及其他超參 大規(guī)模數(shù)據(jù) 圖形圖像特征提取
LDA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 文本數(shù)據(jù),主題挖掘
哪些是降維任務(wù)哪些是聚類任務(wù)?
31省市居民家庭消費(fèi)情況調(diào)查表
學(xué)生月上網(wǎng)時間分布調(diào)查表
人臉圖像特征抽取