主成分分析
主成分分析PCA是將多指標重新組合成一組新的無相關的幾個綜合指標,是根據實際需要從中選取盡可能少的綜合指標,以達到盡可能多地反應原指標信息的分析方法。由于這種方法的第一主成分在所有的原始變量中方差最大,因而綜合評價函數的方差總不會超過第一主成分的方差,所以該方法有一定的缺陷,且提取的主成分個數m通常應明顯小于原始變量個數p(除非p本身較小),所以在變量較少時就不太適合先用主成分篩選變量,這個視數據情況而定
主成分分析實現步驟:
1、原始數據標準化,消除變量量綱不同的影響;
2、計算相關系數矩陣,計算特征值和對應的特征向量;
3、計算貢獻率和累計貢獻率。
疑問解答:
1.計算特征值的含義?
?? PCA的本質是對角化協方差矩陣,后對一個n x n的對稱協方差矩陣分解求特征值和特征向量,就會產生n個n維正交基,每個正交基對應一個特征值,吧矩陣投影在這n個基上,此時的特征值的橫就表示在該基上的投影長度,特征值越大,說明矩陣對應的特征向量上的方差越大,樣本點越離散,越容易區分,包含的信息量越多
2.主成分系數
? 根據主成分系數判斷主成分主要依賴的幾個變量,根據主要依賴變量總結該主成分(綜合指標)代表的性質
3.主成分得分
? 主成分得分其實就是降維之后數據,可對降維之后的主成分得分進行聚類分析,得到相似的類別群體