大師兄的應用回歸分析學習筆記(十六):多重共線性的情形及其處理(一)
大師兄的應用回歸分析學習筆記(十八):多重共線性的情形及其處理(三)
三、多重共線性的診斷
- 一般情況下,回歸方程的解釋變量之間存在很強的線性關系,回歸方程的檢驗高度顯著時,有些與因變量y的簡單相關系數絕對值很大的自變量,其回歸系數不能通過顯著性檢測,甚至有的回歸系數所帶符號與實際經濟意義不符,這時就認為存在多重共線性。
- 集中主要方法如下:
1. 方差擴大因子法
- 對自變量做中心標準化,則
為自變量的相關陣,記
,稱其主對角線元素
為自變量
的方差擴大因子(variance inflation factor, VIF), 可知
- 式中
為
的離差平方和
- 用
作為衡量自變量
的方差擴大程度的因子是恰如其分的
- 記
為自變量
對其余p-1個自變量的復決定系數,可以證明
![]()
-
度量了自變量
與其余p-1個自變量的線性相關程度,這種相關程度越強,說明自變量之間的多重共線性越嚴重,
越接近1,
就越大。
- 相反,
與其余p-1個自變量的線性相關程度越弱,自變量間的多重共線性就越弱,
就越接近0,VIF就越接近1.
- 經驗表明,當
時,說明變量
與其余自變量之間有嚴重的多重共線性,且這種多重共線性可能會過度地影響最小二乘估計。
- 也可以用p個自變量所對應的方差擴大因子的平均數來度量多重共線性,當
遠遠大于1時,就表現存在嚴重的多重共線性問題。
- 對于只含兩個解釋變量
的回歸方程,計算
的決定系數
就是判斷它們是否存在多重共線性:
- 如果
很大,則認為
可能存在嚴重的多重共線性
- 但
和樣本量n有關,當樣本量較小時,
容易接近1
- 所以當樣本量不算小,而且
接近1時,可以肯定存在嚴重的多重共線性
2. 特征根判定法
2.1 特征根分析
- 根據矩陣行列式的性質,矩陣的行列式等于其特征根的連乘積。
- 因而,當行列式
時,矩陣
至少有一個特征根近似為零。
- 反之可以證明,當矩陣
至少有一個特征根近似為零時,X的列向量間必然存在多重共線性。
- 如果矩陣
有多個特征根近似為零,取每個特征根的特征向量為標準化正交向量,即可證明
有多個特征根近似零,X就有多少個多重共線性關系。
2.1 條件數
- 特征根分析表明,當矩陣X'X有一個特征根近似為零時,設計矩陣X的列向量間必然存在多重共線性,并且X'X有多少個特征接近零,X就有多少個多重共線性關系。
- 特征根近似為零的標準用下面方法界定:記X'X的最大特征根為
稱
為特征根的條件數(condition index)。
- 條件數度量了矩陣X'X的特征根的散布程度,可以用來判斷多重共線性是否存在以及多重共線性的嚴重程度:
- 通常認為
時,設計矩陣X沒有多重共線性
時,存在較強的多重共線性;
時,存在嚴重的多重共線性。
-
計算出特征根與條件數輸出結果:
- 從條件數看到,最大的兩個條件數
![]()
- 說明自變量間存在嚴重的多重共線性。
- 可以由條件數表中右邊的方差比例粗略判定哪幾個自閉那輛間存在共線性,如果有某幾個自變量的方差比例值在某一行同時較大(接近1),則這幾個自閉間就存在多重共線性。
- 從第6行看,
對應的0.91方差比例0.91最大,說明
之間存在強的付共線性。
- 第5行常數項方差比例
最大,
對應的方差比例0最小,其他變量的方差比例再0.11~0.39之間,說明
之間存在一個線性組合約等于常數。
- 但是方差比例并不直接是共線性關系的系數,方差比例是根據特征向量計算的,計算方法是:
- 在求特征根和特征向量時數據要標準化,以消除量綱的影響。
- 由于設計矩陣X的第一列有一列1,所以在標準化時變量不能減去均值,而是直接除以每列數據平方和的平方根。
- 包括每一列1也做同樣的變換,得標準化的設計矩陣X',其中每列都是單位列向量,列平方和等于1,然后再對X'X求特征根和特征向量。
3.直觀判定法
- 方差擴大因子和條件數方法給出了識別多重共線性的數量標準
- 需要注意的是,這種數量標準并不是識別多重共線性的絕對標準,還應該結合一些直觀方法綜合識別多重共線性。
- 當出現與因變量y的簡單相關系數絕對值很大的自變量,但是其偏回歸系數不能通過顯著性檢驗,檢驗,甚至出現回歸系數符號與實際經濟意義相反的情況時,就認為存在多重共線性。
- 直管判斷綜述如下
- 當增加或剔除一個自變量,其他自變量的回歸系數的估計值或顯著性發生較大變化時,認為回歸方程存在嚴重的多重共線性。
- 當定性分析認為一些重要的自變量在回歸方程中沒有通過顯著性檢驗時,可初步判斷存在嚴重的多重共線性。
- 當與因變量之間的簡單相關系數絕對值很大的自變量在回歸方程中沒有通過顯著性檢驗時,可初步判斷存在嚴重的多重共線性。
- 當有些自變量的回歸系數的數值大小與預期相差很大,甚至正負號與定性分析結果相反時,存在嚴重的多重共線性問題。
- 在自變量的相關矩陣中,當自變量間的相關系數較大時會出現多重共線性問題。
- 當一些重要的自變量的回歸系數的標準誤差較大時,可能存在多重共線性。