(21)聚類分析基礎知識

所謂聚類分析,就是按照個體的特征將他們分類,并且在于讓同一個類別內的個體之間具有較高的相似度,讓不同類別之間具有較大的差異性。這樣,研究人員就能根據(jù)不同類別的特征有針對性的進行分析,并制定出適用于不同類別的解決方案。

聚類分析主要應用在市場細、用戶細分等領域。

如何將個體劃分成不同的類別?

為了合理的進行聚類,需要采用適當?shù)闹笜藖砗饬垦芯繉ο笾g的聯(lián)系緊密程度,常用的指標有“距離”和“相似系數(shù)”。假設將研究對象采用點表示,聚類分析時,將“距離”小的點或者“相關系數(shù)”較大的點歸為一類,將“距離”大的點或“相關系數(shù)”小的點歸為一類。

聚類分析的特點?

1)聚類結果是未知的。不同的聚類方法可能得到不同的分類結果,相同的聚類方法但是所分析的變量不同,也會得到不同的聚類結果。

2)對于聚類結果的合理性判斷比較主觀。只要類別內的相似性和類別間的差異性都能得到合理的解釋和判斷,就認識聚類結果是可行的。

常見應用場景?

零售研究中,刻畫不同的用戶或消費者生活形態(tài)以及特征;互聯(lián)網(wǎng)中,通過用戶瀏覽、消費行為來總結用戶特征;金融研究中,根據(jù)用戶金融行為和資產狀況對用戶進行分類;城市規(guī)劃中,根據(jù)區(qū)域特征對城市分類......

聚類分析的步驟:

1)確定需要參加聚類分析的變量。即使用那些變量來進行分類。

2)對數(shù)據(jù)進行標準化處理。單位、數(shù)量級等

3)選擇聚類方法和類別數(shù)目。即用什么聚類方法,分成幾類。

4)分析聚類結果。

為什么要對數(shù)據(jù)進行標準化處理?

因為有事各個變量之間的變量值的數(shù)量級別差異較大,或者單位也不一樣。例如一個是元,一個是萬元,再或者數(shù)量級別差距太大都無法進行比較或者計算“距離”和“相似系數(shù)”等指標。只有通過標準化處理,消除變量間的量綱關系的影響,在統(tǒng)一標準下才能夠進行比較或者計算“距離”和“相似系數(shù)”等指標。

聚類方法的分類

聚類方法主要有三種:

1)快速聚類:也稱K均值聚類,他是按照一定的方法,選取一批聚類中心點,讓個案向最近的聚類中心點聚集形成初始分類,然后按照最近距離原則調整不合理的分類,直到分類合理為止。

2)系統(tǒng)聚類:也稱層次聚類,首先將參與聚類的個案(或變量)各視為一類,然后根據(jù)兩個類別之間的距離或者相似性逐步合并,直到所有個案(或變量)合并為一個大類為止。

3)二階聚類:也稱兩步聚類,這是隨著人工智能的發(fā)展而發(fā)展起來的一種智能聚類方法。分成兩個步驟:第一步驟是預聚類,就是根據(jù)定義的最大類別數(shù)對個案進行初步歸類;第二步驟是正式聚類,就是對第一步驟得到的初步聚類進行在聚類并確定最終聚類結果,并且在這一步中,會根據(jù)一定的統(tǒng)計標準確定聚類的類別數(shù)。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,401評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,011評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,263評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,543評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,323評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,874評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,968評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,095評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 48,605評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,551評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,720評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,242評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 43,961評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,358評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,612評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,330評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,690評論 2 370

推薦閱讀更多精彩內容

  • RFM分析只能對客戶的行為進行分析,包含的信息量有點少。一般來說,對人群進行分類,要綜合考慮其行為、態(tài)度、模式以及...
    黃成甲閱讀 8,710評論 0 36
  • 一。簡單介紹 按照特征來分; 目的在于人士能夠同一個類別內的個體之間具有較高的相似度,而不同的相似度,而不同類別 ...
    Joypang閱讀 8,769評論 0 2
  • 各位小伙伴們大家好,這幾天我在學習聚類分析這個統(tǒng)計方法,所以希望通過這個文章來概括下自己所學的知識,并且希望大家可...
    云時之間閱讀 11,815評論 1 15
  • (一)什么是聚類 聚類,將相似的事物聚集在一起,將不相似的事物劃分到不同的類別的過程。是將復雜數(shù)據(jù)簡化為少數(shù)類別的...
    11的霧閱讀 21,830評論 0 8
  • 聚類分析定義與作用: 是把分類對象按照一定規(guī)則分成若干類,這些類不是事先設定的,而是根據(jù)數(shù)據(jù)的特征確定的。在同一類...
    畢業(yè)零距離閱讀 34,873評論 1 40