所謂聚類分析,就是按照個體的特征將他們分類,并且在于讓同一個類別內的個體之間具有較高的相似度,讓不同類別之間具有較大的差異性。這樣,研究人員就能根據(jù)不同類別的特征有針對性的進行分析,并制定出適用于不同類別的解決方案。
聚類分析主要應用在市場細、用戶細分等領域。
如何將個體劃分成不同的類別?
為了合理的進行聚類,需要采用適當?shù)闹笜藖砗饬垦芯繉ο笾g的聯(lián)系緊密程度,常用的指標有“距離”和“相似系數(shù)”。假設將研究對象采用點表示,聚類分析時,將“距離”小的點或者“相關系數(shù)”較大的點歸為一類,將“距離”大的點或“相關系數(shù)”小的點歸為一類。
聚類分析的特點?
1)聚類結果是未知的。不同的聚類方法可能得到不同的分類結果,相同的聚類方法但是所分析的變量不同,也會得到不同的聚類結果。
2)對于聚類結果的合理性判斷比較主觀。只要類別內的相似性和類別間的差異性都能得到合理的解釋和判斷,就認識聚類結果是可行的。
常見應用場景?
零售研究中,刻畫不同的用戶或消費者生活形態(tài)以及特征;互聯(lián)網(wǎng)中,通過用戶瀏覽、消費行為來總結用戶特征;金融研究中,根據(jù)用戶金融行為和資產狀況對用戶進行分類;城市規(guī)劃中,根據(jù)區(qū)域特征對城市分類......
聚類分析的步驟:
1)確定需要參加聚類分析的變量。即使用那些變量來進行分類。
2)對數(shù)據(jù)進行標準化處理。單位、數(shù)量級等
3)選擇聚類方法和類別數(shù)目。即用什么聚類方法,分成幾類。
4)分析聚類結果。
為什么要對數(shù)據(jù)進行標準化處理?
因為有事各個變量之間的變量值的數(shù)量級別差異較大,或者單位也不一樣。例如一個是元,一個是萬元,再或者數(shù)量級別差距太大都無法進行比較或者計算“距離”和“相似系數(shù)”等指標。只有通過標準化處理,消除變量間的量綱關系的影響,在統(tǒng)一標準下才能夠進行比較或者計算“距離”和“相似系數(shù)”等指標。
聚類方法的分類
聚類方法主要有三種:
1)快速聚類:也稱K均值聚類,他是按照一定的方法,選取一批聚類中心點,讓個案向最近的聚類中心點聚集形成初始分類,然后按照最近距離原則調整不合理的分類,直到分類合理為止。
2)系統(tǒng)聚類:也稱層次聚類,首先將參與聚類的個案(或變量)各視為一類,然后根據(jù)兩個類別之間的距離或者相似性逐步合并,直到所有個案(或變量)合并為一個大類為止。
3)二階聚類:也稱兩步聚類,這是隨著人工智能的發(fā)展而發(fā)展起來的一種智能聚類方法。分成兩個步驟:第一步驟是預聚類,就是根據(jù)定義的最大類別數(shù)對個案進行初步歸類;第二步驟是正式聚類,就是對第一步驟得到的初步聚類進行在聚類并確定最終聚類結果,并且在這一步中,會根據(jù)一定的統(tǒng)計標準確定聚類的類別數(shù)。