關于聚類與曲線相似度評價指標

聚類通常是一種非監督學習方法，對大量的未標注數據集按照數據內在的相似性劃分為若干個類別。比如對客戶進行價值分析，根據不同客戶群體制定不同的營銷策略，需要準確的將客戶分成"重點客戶"、"潛在客戶"、"一般客戶"，就會用到聚類的算法。下面介紹3種常用聚類算法和1種判斷曲線相似度的算法。此外還有層次聚類，密度最大值聚類等。

PS：算法只是整個數據挖掘過程中的很小一部分，而根據先驗知識去選擇指標，建立模型，數據預處理才是平時工作中耗時的部分

K-means++

簡單介紹

K-means++是對K-means算法的升級，在初值選擇時更佳合理。由于K-means聚類對初始質心的選擇非常敏感，因此選擇恰當的質心對算法的優劣很關鍵。K-means++算法在選擇初始質心時，選擇彼此距離盡可能遠的K個點

算法過程

1、選擇初值與簇的個數：

通常情況下，簇的個數是根據先驗知識來選擇的。

初始質心選擇彼此距離盡可能遠的K個點：首先隨機選擇一個點作為第一個初始類簇中心點（也可以根據圖像自己指定），記作A；然后選擇距離A點最遠的那個點作為第二個初始類簇中心點，記作B；然后再選擇距離A,B的最近距離最大的點作為第三個初始類簇的中心點，記為C，以此類推，直至選出K個初始類簇中心點。

解釋一下C點的選擇，"距離A,B的最近距離最大的點"：假設已經有了A,B兩個點，用d(3,A)表示3號點到A點的距離，假設：

d(3,A)=5,d(3,B)=6，那么3號點距離A,B的最近距離是5；

d(4,A)=10,d(4,B)=20，那么4號點距離A,B的最近距離是10；

d(5,A)=2,d(5,B)=3，那么4號點距離A,B的最近距離是2；

在5,10,2中選擇最大的距離是10，那么C點就是4號節點，C點是離A,B都很遠的那個點。

2、k-means算法過程

a.選取k個簇的質心c1,c2...ck

b.對于每個樣本xi，分別計算d(xi, ci)，將其標記為距離簇最近的類別

c.如果當前結果與上次分類結果相同，那么跳出循環。終止條件也可以換位其他條件，比如迭代次數，MSE，簇中心變化率

d.將每個簇中心更新為新分類后所有樣本的均值

e.循環b,c,d過程。

適用范圍

適用于類似圓形的聚類。

適用：

不適用：

DBSCAN

簡單介紹

dbscan是基于密度的聚類，密度聚類算法通常可以把緊密相連，不斷接觸延伸的數據匯聚到一起。可以不指定K值。

算法過程

1、先給出若干定義

對象的ε鄰域：樣本在半徑ε的區域。

核心對象：給定數目m，如果一個樣本的ε鄰域內至少包含m個樣本，則稱此樣本為核心對象。

直接密度可達：如果p在q的ε鄰域內，并且q是一個核心對象，那么就說p從對象q出發是密度可達的。

密度可達：如果存在一個對象鏈p1p2...pn，p1 = q，pn = p，對于1≤i≤n，p[i+1]是p[i]關于ε和m直接密度可達，那么p是從對象q出發關于ε和m密度可達的。

密度相連：如果集合中存在一個對象o，p和q是從o出發關于ε和m密度可達，那么p和q是關于ε和m密度相連。

噪聲：不包含在任何簇中的樣本，稱為噪聲。注：如果m值選的過小，那么包含過少對象的簇也可以被認為是噪聲。

2、dbscan算法過程：

a.人工給定ε鄰域距離和數值m，如果一個點p的ε鄰域內包含多余m個對象，則創建一個p為核心對象的新簇。

b.尋找并合并核心對象直接密度可達的對象。

c.沒有新點更新時，算法結束

適用范圍

可以發現任何形狀的聚類

譜聚類

簡單介紹

譜聚類是求拉普拉斯矩陣的特征向量后，對特征向量的特征值進行聚類。對數據分布的適應性更強

算法過程

1、先給出若干定義

拉普拉斯矩陣：L = D - W

2、譜聚類算法過程

a、計算相似度矩陣W和度矩陣D

b、計算拉普拉斯矩陣L = D - W

c、計算L的特征值和特征向量Lu = λu，因為L是n*n的對稱矩陣，所以L有n個特征值和特征向量。

d、對特征值λ從小到大排序，取前K個特征值的特征向量u1,u2...uk，組成特征向量矩陣U(n行k列)。

e、1號樣本的特征認為是U矩陣的第一行u11,u12...u1k

? ? ? n號樣本的特征認為是U矩陣的第一行un1,un2...unk

f、有了樣本，樣本也選好了特征，使用k-means將n個樣本做聚類，得到K個簇。

g、這個聚類的最終結果就是譜聚類的結果。

適用范圍

適用于各種距離，處理稀疏數據會比其他算法更有效

弗雷歇距離

度量點之間的距離有很多，這里介紹一種度量曲線相似度的方法，Frechet distance。

網上常見的描述方式是

Fréchet distance就是狗繩距離：主人走路徑A，狗走路徑B，各自走完這兩條路徑過程中所需要的最短狗繩長度。

下面更直白的表述一下

兩條曲線L1，L2。a表示L1上的點，b表示L2上的點d(a,b)表示兩點間的距離

當a在0號點時，計算d(0,1),d(0,2)...d(0,n)各個距離，記為集合s0，D0 = max(s0)

當a在1號點時，計算d(1,1),d(1,2)...d(1,n)各個距離，記為集合s1，D1 = max(s1)

以此類推得到D2,D3...Dn

frechet_distance = min(D0,D1,...,Dn)

弗雷歇距離的參考文獻

https://zhuanlan.zhihu.com/p/2015996

題外話：是否能夠根據曲線相似度去判斷兩支股票的k線趨勢是否相同，從而去挑選趨勢相同的股票呢？

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,797評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,179評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,628評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,642評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,444評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,948評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,040評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,185評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,717評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,794評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,418評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,414評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,750評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

關于聚類與曲線相似度評價指標

關于聚類與曲線相似度評價指標

K-means++

簡單介紹

算法過程

適用范圍

DBSCAN

簡單介紹

算法過程

適用范圍

譜聚類

簡單介紹

算法過程

適用范圍

弗雷歇距離

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

關于聚類與曲線相似度評價指標

K-means++

簡單介紹

算法過程

適用范圍

DBSCAN

簡單介紹

算法過程

適用范圍

譜聚類

簡單介紹

算法過程

適用范圍

弗雷歇距離

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频