線(xiàn)性回歸

1. 如何理解協(xié)方差和相關(guān)系數(shù)?

協(xié)方差公式:

公式簡(jiǎn)單翻譯一下是:如果有X,Y兩個(gè)變量,每個(gè)時(shí)刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個(gè)乘積,再對(duì)這每時(shí)刻的乘積求和并求出均值(其實(shí)是求“期望”,但就不引申太多新概念了,簡(jiǎn)單認(rèn)為就是求均值了)。

相關(guān)系數(shù)的公式:

就是用X、Y的協(xié)方差除以X的標(biāo)準(zhǔn)差和Y的標(biāo)準(zhǔn)差。

細(xì)節(jié)說(shuō)明可以參考這篇文章:如何通俗易懂地解釋「協(xié)方差」與「相關(guān)系數(shù)」的概念?

相關(guān)系數(shù)的性質(zhì)如下:

  1. 相關(guān)系數(shù)的值介于-1與+1之間,即-1≤r≤+1。
    當(dāng)r>0時(shí),表示兩變量正相關(guān),當(dāng)r<0時(shí),表示兩變量為負(fù)相關(guān)。當(dāng)|r|=1時(shí),表示兩變量為完全線(xiàn)性相關(guān)即函數(shù)關(guān)系。當(dāng)r=1時(shí),稱(chēng)為完全正相關(guān),而當(dāng)r=-1時(shí),稱(chēng)為完全負(fù)相關(guān)。當(dāng)r=0時(shí),表示兩變量間無(wú)線(xiàn)性相關(guān)關(guān)系。
  2. r具有對(duì)稱(chēng)性。X與y之間的相關(guān)系數(shù)rxy和y與x之間的相關(guān)系數(shù)ryx相等。
  3. r數(shù)值大小與x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度無(wú)關(guān)。改變x和y的數(shù)據(jù)原點(diǎn)和計(jì)量尺度,并不改變r(jià)數(shù)值的大小。
  4. r僅僅是x與y 之間線(xiàn)性關(guān)系的一個(gè)度量,它不能用于描述非線(xiàn)性關(guān)系。
  5. r雖然是兩個(gè)變量之間線(xiàn)性關(guān)系的一個(gè)度量,卻不一定意味著x與y一定有因果關(guān)系。
    當(dāng)︱r︱≥0.8時(shí),可視為高度相關(guān);當(dāng)0.5≤︱r︱<0.8時(shí),可視為中度相關(guān);當(dāng)0.3≤︱r︱<0.5時(shí),視為低度相關(guān);當(dāng)︱r︱<0.3時(shí),說(shuō)明兩個(gè)變量之間的相關(guān)程度極弱

在R中,相關(guān)系數(shù)的計(jì)算使用cor函數(shù)

2. 相關(guān)系數(shù)的顯著性檢驗(yàn)

一般情況下我們都是使用樣本數(shù)據(jù)來(lái)計(jì)算相關(guān)系數(shù),用樣本的相關(guān)系數(shù)來(lái)估計(jì)整體的相關(guān)系數(shù),因此存在一定的偏差,會(huì)受到抽樣波動(dòng)的影響。每次抽樣數(shù)據(jù)不同,得到的樣本相關(guān)系數(shù)也不同。因此樣本相關(guān)系數(shù)是個(gè)隨機(jī)變量。如何確定樣本相關(guān)系數(shù)是否能代表總體的相關(guān)水平呢?需要對(duì)樣本相關(guān)系數(shù)進(jìn)行可靠性檢驗(yàn),也就是顯著性檢驗(yàn)。一般我們用t檢驗(yàn)。

根據(jù)給定的顯著性水平a和自由度(n-2)查t分布表,得出t_{a/2}(n-2)的臨界值。若|t|>t_{a/2}則拒絕原假設(shè),認(rèn)為總體存在顯著的線(xiàn)性關(guān)系。

在R中,相關(guān)系數(shù)的檢驗(yàn)可以使用cor.test函數(shù)

3. 一元線(xiàn)性回歸

回歸模型:y=\beta_0+\beta_1x+\epsilon
回歸模型中的參數(shù)估計(jì)(\beta_0 , \beta_1),使用最小二乘法來(lái)進(jìn)行估計(jì)計(jì)算。

擬合優(yōu)度:通俗點(diǎn)說(shuō)就是看我們推斷出來(lái)的這條直線(xiàn)代表了實(shí)際數(shù)據(jù)分布情況的優(yōu)良程度。
判定系數(shù)(R^2):
實(shí)際的觀測(cè)數(shù)據(jù)跟總體平均值之間的差異叫作變差(也即離均差或離差)。變差的平方,也即平方偏差。所有的平方偏差之和,記為:SST=\sum(y_i-\overline{y})^2

注意,方差的定義其實(shí)就是對(duì)平方偏差之和求平均數(shù)。即,\sigma^2=SST/n

從下圖可以看到,所有的變差(也即離均差)都可分解為:y-\overline{y}=(y-\hat{y})+(\hat{y}-\overline{y})


將上式兩邊平方再求和,得到:

\sum(y_i-\overline{y})^2=\sum(y_i-\hat{y}_i)^2+\sum(\hat{y}_i-\overline{y})^2+2\sum(y_i-\hat{y}_i)(\hat{y}_i-\overline{y})

可以證明,\sum(y_i-\hat{y}_i)(\hat{y}_i-\overline{y})=0,因此

\sum(y_i-\overline{y})^2=\sum(y_i-\hat{y}_i)^2+\sum(\hat{y}_i-\overline{y})^2

其中,由于\hat{y} 是根據(jù)回歸方程估計(jì)出來(lái)的值,因此,\hat{y}_i-\overline{y} 可以表示根據(jù)回歸方程估計(jì)出來(lái)的值與總體平均值之間的變差,他是由于自變量x的變化而引起的變化。其平方和我們稱(chēng)為回歸平方和,記為SSR。
y_i-\hat{y}_i 表示的是實(shí)際觀測(cè)值和我們根據(jù)回歸方程估計(jì)出來(lái)的估計(jì)值之間的差異,也即回歸模型中的\epsilon部分,它表示的是除了x對(duì)y線(xiàn)性影響之外的其他因素引起的y的變化部分,我們稱(chēng)之為殘差。其平方和我們稱(chēng)之為殘差平方和,記為:SSE。三個(gè)平方和之間的關(guān)系為:

總平方和(SST)= 回歸平方和(SSR)+殘差平方和(SSE)

根據(jù)上圖我們可以看到,回歸直線(xiàn)擬合的好壞取決于殘差部分。殘差越小,擬合得越好。跟據(jù)上式我們可知,SSE越小,SSR越大。也即,SSR/SST的比值越大。我們將這個(gè)比例稱(chēng)為判定系數(shù):
R^2=SSR/SST=1-SSE/SST
若所有觀測(cè)點(diǎn)都落在直線(xiàn)上,則SSE=0,此時(shí)SSR=SSTR^2=1 。若y的變化與x完全無(wú)關(guān),x完全無(wú)助于解釋y的變化,此時(shí)SSR=0R^2=0。可見(jiàn),R^2的取值范圍為[0,1]。而上面講到的相關(guān)系數(shù),其實(shí)就是判定系數(shù)的平方根,即 r=\sqrt{R^2}

估計(jì)標(biāo)準(zhǔn)誤:
從上面可以看到,\frac{SSE}{n-2},其實(shí)就是殘差的均方差(MSE)。而估計(jì)標(biāo)準(zhǔn)誤,其實(shí)就是對(duì)所有殘差求標(biāo)準(zhǔn)差而已。公式:s_e=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}

顯著性檢驗(yàn)
注意如下幾點(diǎn):
1)我們的回歸方程,是根據(jù)樣本數(shù)據(jù)得出的,不一定代表了整體真實(shí)數(shù)據(jù);
2)我們?cè)谧鰯M合時(shí),先入為主的假定了y和x存在線(xiàn)性關(guān)系;
3)我們?cè)谧鰯M合時(shí),還假設(shè)了誤差項(xiàng)\epsilon是一個(gè)服從正態(tài)分布的隨機(jī)變量,且對(duì)不同的x,具有相同的方差
以上假設(shè)是否成立,還需要通過(guò)檢驗(yàn)來(lái)加以證實(shí)。

  1. 線(xiàn)性關(guān)系的檢驗(yàn):
    F檢驗(yàn)(也叫方差比率檢驗(yàn)):對(duì)兩組樣本數(shù)據(jù)求方差,計(jì)算兩組樣本數(shù)據(jù)的方差之比F,如果:
    F < F表 表明兩組數(shù)據(jù)沒(méi)有顯著差異;
    F ≥ F表 表明兩組數(shù)據(jù)存在顯著差異。
    如果y和x存在顯著的線(xiàn)性關(guān)系,那么,根據(jù)線(xiàn)性方程得到的y值(估計(jì)值),在樣本范圍內(nèi),其方差與實(shí)際值和估計(jì)值之間的殘差的方差,應(yīng)該存在顯著差異。那我們就可以采用F檢驗(yàn)來(lái)判定。即:
    F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE} \sim F(1,n-2)
    注意,SST的自由度為n,SSR的自由度為k,即自變量的個(gè)數(shù),在一元線(xiàn)性回歸中為1,SSE的自由度為n-k-1,在一元線(xiàn)性回歸中為n-2;
    F>F_a,則拒絕原假設(shè)(兩個(gè)變量間的線(xiàn)性關(guān)系不顯著假設(shè)),認(rèn)為兩個(gè)變量間的線(xiàn)性關(guān)系是顯著的,否則不拒絕原假設(shè),沒(méi)有證據(jù)表明兩個(gè)變量間的線(xiàn)性關(guān)系是顯著的。

  2. 回歸系數(shù)的檢驗(yàn)(檢驗(yàn)\beta_1是否等于0)
    我們之前用的是判定系數(shù)或者估計(jì)標(biāo)準(zhǔn)誤來(lái)對(duì)回歸方程的擬合性好壞做判段。但是判定系數(shù)只能說(shuō)明回歸方程總體的回歸效果,整體效果顯著并不能說(shuō)明每個(gè)自變量對(duì)因變量都是有效的。(尤其是在多元回歸中,如果某個(gè)自變量對(duì)因變量不顯著,就應(yīng)該剔除)。顯然,如果某個(gè)自變量對(duì)因變量作用不顯著,那么他的系數(shù)就應(yīng)該為0。所以,我們要檢測(cè)每個(gè)自變量的系數(shù)是否顯著不為0。上面的F檢驗(yàn),也是檢驗(yàn)的整體效果,做F檢驗(yàn)時(shí),我們是假設(shè)所有的自變量系數(shù)都為0,那么顯然,即便模型通過(guò)了F檢驗(yàn),但也并不清楚究竟哪一個(gè)參數(shù)不為零,那么我們對(duì)模型的解釋就還不夠清楚。
    如何判斷自變量系數(shù)顯著不為0呢?因?yàn)樽宰兞肯禂?shù)是個(gè)隨機(jī)變量,方差也未知。在此情況下,根據(jù)統(tǒng)計(jì)學(xué)原理,這個(gè)隨機(jī)變量轉(zhuǎn)化為標(biāo)準(zhǔn)分?jǐn)?shù)后的標(biāo)準(zhǔn)值應(yīng)該服從自由度為n-2的t分布。因此我們用t檢驗(yàn)來(lái)檢測(cè)參數(shù)是否顯著不為0:
    t=\frac{\hat{\beta}_1-\overline{\beta_1}}{s_{\beta_1}}=\frac{\hat{\beta}_1}{s_{\beta_1}} \sim T(n-2)
    一般我們會(huì)計(jì)算P值,即根據(jù)t分布表,查到的在n-2自由度下,概率為t時(shí)對(duì)應(yīng)的a(也即百分比),如果小于給定的a(例如0.05,也就是5%),那么表示我們有極少的概率會(huì)出現(xiàn)系數(shù)為0的情況,因此要拒絕原假設(shè),反之,我們不拒絕原假設(shè)。

  3. 殘差分析: 檢驗(yàn)誤差項(xiàng)\epsilon的假定是否成立
    殘差除以標(biāo)準(zhǔn)誤差后的值,叫標(biāo)準(zhǔn)化殘差,記作:z_{e_i}=\frac{y_i-\hat{y}_i}{s_e}
    檢驗(yàn)誤差項(xiàng)\epsilon的假定是否成立,可以通過(guò)殘差圖分析來(lái)完成。殘差圖的x軸是自變量的值x_i或者因變量的值y_i,縱軸是對(duì)應(yīng)的殘差e_ix_i(或y_i)對(duì)應(yīng)的殘差e_i,在圖中用一個(gè)點(diǎn)表示。
    若關(guān)于\epsilon等方差的假設(shè)成立,且描述y與x之間關(guān)系的回歸模型是合理的,那么殘差圖中的所有點(diǎn)都應(yīng)以均值0為中心隨機(jī)分布在一條水平帶中間,如下圖(a)所示。

    不同形態(tài)的殘差圖

另外,在R語(yǔ)言中,我們可以方便的來(lái)進(jìn)行圖形化的模型診斷

model <- lm(因變量~自變量)
plot(model)

此時(shí)會(huì)顯示四張圖:


其中,Residuals vs Fitted類(lèi)似于殘差圖,橫坐標(biāo)代表你擬合值,縱坐標(biāo)代表殘差值。若關(guān)于\epsilon等方差的假設(shè)成立,且描述y與x之間關(guān)系的回歸模型是合理的,那么殘差圖中的所有點(diǎn)都應(yīng)以均值0為中心隨機(jī)分布在一條水平帶中間。
Normal QQ-plot用來(lái)檢測(cè)其殘差是否是正態(tài)分布的。正態(tài)分布的QQ圖的橫坐標(biāo)為:標(biāo)準(zhǔn)正態(tài)分布的分位數(shù),縱坐標(biāo)為樣本值。利用QQ圖鑒別樣本數(shù)據(jù)是否近似于正態(tài)分布只需看QQ圖上的點(diǎn)是否近似地在一條直線(xiàn)附近,圖形是直線(xiàn)說(shuō)明是正態(tài)分布,而且該直線(xiàn)的斜率為標(biāo)準(zhǔn)差,截距為均值.
Scale-Location 是位置尺度圖,用來(lái)判斷殘差的方差齊性。若滿(mǎn)足方差齊性假設(shè),那么在位置尺度圖中,水平線(xiàn)周?chē)狞c(diǎn)應(yīng)該隨機(jī)分布。
Residuals vs Leverage 用于判斷樣本數(shù)據(jù)中是否有離群點(diǎn)、高杠桿值點(diǎn)和強(qiáng)影響點(diǎn)。
更細(xì)致的說(shuō)明可以參考這篇文章:R語(yǔ)言里的模型診斷圖

4. 多元線(xiàn)性回歸

基本同一元線(xiàn)性回歸,回歸模型為:y=\beta_0+\beta_1x_1+\beta_2x_2+...++\beta_kx_k+\epsilon

在多元回歸總,我們?nèi)匀皇褂门卸ㄏ禂?shù)來(lái)判段擬合程度的好壞。此時(shí)叫多重判定系數(shù)。但是要注意的是,殘差平方和往往隨著解釋變量個(gè)數(shù)的增加而減少,至少不會(huì)增加,但是由增加解釋變量個(gè)數(shù)引起的判定系數(shù)的增大與擬合好壞無(wú)關(guān),因此在多元回歸模型之間比較擬合優(yōu)度,判定系數(shù)就不是一個(gè)合適的指標(biāo),必須加以調(diào)整,于是引入了調(diào)整的多重判定系數(shù):R_a^2=1-(1-R^2)(\frac{n-1}{n-k-1})

在多元回歸中,既要避免遺漏變量偏誤的發(fā)生,也要盡量避免引入過(guò)多的變量,導(dǎo)致多重共線(xiàn)性的發(fā)生。

當(dāng)回歸模型中兩個(gè)或兩個(gè)以上的自變量彼此相關(guān)時(shí),則稱(chēng)回歸模型中存在多重共線(xiàn)性。具體來(lái)說(shuō),如果出現(xiàn)以下情況,暗示存在多重共線(xiàn)性:

  1. 模型中各對(duì)自變量存在顯著相關(guān);
  2. 當(dāng)模型的線(xiàn)性關(guān)系檢驗(yàn)(F檢驗(yàn))顯著時(shí),幾乎所有回歸系數(shù)的t檢驗(yàn)卻不顯著;
  3. 回歸系數(shù)的正負(fù)號(hào)與預(yù)期的相反;
  4. 通過(guò)容忍度和方差擴(kuò)大因子判斷:容忍度越小,多重共線(xiàn)性越嚴(yán)重。方差擴(kuò)大因子越大,多重共線(xiàn)性越嚴(yán)重。

多重共線(xiàn)性度問(wèn)題主要是影響對(duì)單個(gè)回歸系數(shù)的解釋和檢驗(yàn),在求因變量置信區(qū)間和預(yù)測(cè)區(qū)間時(shí)一般不會(huì)受影響,但必須保證用于估計(jì)和預(yù)測(cè)的自變量值在樣本數(shù)據(jù)范圍內(nèi)。

解決多重共線(xiàn)性的方法主要是:

  1. 將一個(gè)或多個(gè)相關(guān)的自變量從模型中剔除,是保留的自變量盡量不相關(guān);
  2. 如果要保留所有的自變量,則避免根據(jù)t統(tǒng)計(jì)量對(duì)單個(gè)參數(shù)進(jìn)行檢驗(yàn),同時(shí)對(duì)因變量y的推斷限定在自變量樣本值的范圍內(nèi)。

變量選擇與逐步回歸

在建立模型時(shí),盡量用最少的變量來(lái)建立模型。每次只增加一個(gè)變量,并將新變量與模型中的變量進(jìn)行比較。若新變量引入模型后,以前的某個(gè)變量的t統(tǒng)計(jì)量不顯著,這個(gè)變量就會(huì)從模型中剔除。另外,我們引入新的變量后,要看是否使殘差平方和(SSE)顯著減少。如果增加一個(gè)自變量使得殘差平方和顯著減少,則說(shuō)明有必要將這個(gè)自變量引入到模型中,否則就沒(méi)有必要。確定引入自變量是否使殘差平方和顯著減少的一個(gè)辦法就是使用F檢驗(yàn)統(tǒng)計(jì)量。
變量的選擇方法包括:向前選擇、向后剔除、逐步回歸、最優(yōu)子集等。

  • 向前選擇:
    第一步:對(duì)k個(gè)自變量,分別擬合與因變量y的一元線(xiàn)性回歸模型,共有k個(gè),然后找出F統(tǒng)計(jì)量的最大模型及對(duì)應(yīng)的自變量x_i,并將其作為第一個(gè)自變量引入到模型中;
    第二步:對(duì)剩下的k-1個(gè)自變量,分別引入到第一步的模型中,得到k-1個(gè)二元線(xiàn)性回歸模型,然后找出F統(tǒng)計(jì)量的最大模型及對(duì)應(yīng)的自變量x_j,并將其作為第二個(gè)自變量引入到模型中。如果除x_i之外的k-1個(gè)自變量中沒(méi)有一個(gè)是統(tǒng)計(jì)上顯著的,則運(yùn)算終止。如此反復(fù)進(jìn)行,直到模型外的自變量均無(wú)統(tǒng)計(jì)顯著性為止。

  • 向后剔除
    與向前選擇相反,先建立包括所有自變量的多元線(xiàn)性回歸模型,然后考察去掉一個(gè)自變量的模型,是模型SSE值減小最小的自變量被挑出來(lái)并從模型中去除,直到剔除一個(gè)自變量不會(huì)使SSE顯著減小為止。上述過(guò)程可以通過(guò)F檢驗(yàn)的P值來(lái)判斷

  • 逐步回歸
    使用向前選擇和向后剔除的混合。前兩步先用向前回歸,從增加第三個(gè)變量開(kāi)始,需要判斷增加這個(gè)變量后,前面的變量是否對(duì)模型的貢獻(xiàn)變得不顯著,如不顯著,就剔除。
    在R中,使用AIC作為選擇標(biāo)準(zhǔn),選擇使用AIC最小的變量建立模型。AIC越小,表示擬合的模型精度越高而且越簡(jiǎn)潔。AIC=n\ln(\frac{SSE}{n})+2p
    n為樣本量,p為模型中參數(shù)的個(gè)數(shù)(包括常數(shù)項(xiàng))

model1 <- lm(y~x1+x2+x3+x4+x5, data=example)
mode2 <- step(model1)

模型比較
采用了逐步回歸方式得到的模型是否很好的擬合了數(shù)據(jù),或者說(shuō)得到的模型是否就一定比使用所有變量的模型要好,需要比較后才能得知。
對(duì)于嵌套模型(一個(gè)模型中包含了另外一個(gè)模型的所有變量,并且至少有一個(gè)額外項(xiàng)),我們可以假設(shè),多出來(lái)的額外項(xiàng),其參數(shù)全為0。如果假設(shè)不成立,則表示使用了比較全的模型,擬合效果要好于簡(jiǎn)化模型。否則表示使用簡(jiǎn)化模型和完全擬合模型擬合效果一樣好,此時(shí)我們應(yīng)選擇簡(jiǎn)化模型。
對(duì)于上述假設(shè),我們一般是計(jì)算出兩個(gè)模型的SSE。如果兩者的差值較大,證明完全擬合模型提供的信息比較多,就不能拒絕原假設(shè)。檢驗(yàn)統(tǒng)計(jì)量為:F=\frac{(SSE_R-SSE_F)/(k-g)}{SSE_F/(n-k-1)} \sim F(k-g,n-k-1)
其中,SSE_R代表簡(jiǎn)化模型,SSE_F代表完全模型,完全模型中的參數(shù)個(gè)數(shù)(包括常數(shù)項(xiàng))為k+1,簡(jiǎn)化模型中的參數(shù)個(gè)數(shù)為g+1。如果檢驗(yàn)的P值很小,就拒絕H_0,否則不拒絕原假設(shè)。這一檢驗(yàn)過(guò)程可以有R的anova函數(shù)來(lái)完成。
用anova函數(shù)比較時(shí),要求兩個(gè)模型是嵌套模型。如果不是嵌套模型,可以使用AIC來(lái)比較。AIC值小,說(shuō)明模型用比較少的參數(shù)就獲得了足夠的擬合度。

自變量的相對(duì)重要性
評(píng)估自變量的相對(duì)重要性的方法之一就是比較標(biāo)準(zhǔn)化回歸系數(shù)。標(biāo)準(zhǔn)化回歸系數(shù),就是將因變量和所有自變量都標(biāo)準(zhǔn)化后,再進(jìn)行回歸,得到的回歸系數(shù)。其含義是:在其他自變量取值不變的情況下,自變量x_i每變動(dòng)一個(gè)標(biāo)準(zhǔn)差,因變量平均變動(dòng)\overline{\beta}_i個(gè)標(biāo)準(zhǔn)差。顯然,\overline{\beta}_i的絕對(duì)值越大,說(shuō)明該自變量x_i對(duì)因變量的影響越大,因此相對(duì)于其他自變量而言,它也越重要。在R中,可以使用lm.beta(object)函數(shù)來(lái)計(jì)算標(biāo)準(zhǔn)化回歸系數(shù)。

穩(wěn)健回歸:

我們一般使用的普通最小二乘法(OLS)進(jìn)行線(xiàn)性回歸,其原理就是使得殘差的平方和最小,也就相當(dāng)于使各殘差平方的算術(shù)均數(shù)最小,而算術(shù)均數(shù)對(duì)于偏離正態(tài)分布的情況其估計(jì)顯然是不穩(wěn)健的,
例如,當(dāng)數(shù)據(jù)樣本點(diǎn)出現(xiàn)很多的異常點(diǎn)(outliers),這些異常點(diǎn)對(duì)回歸模型的影響會(huì)非常的大,傳統(tǒng)的基于最小二乘的回歸方法將不適用。
比如下圖中所示,數(shù)據(jù)中存在一個(gè)異常點(diǎn),如果不剔除該點(diǎn),適用OLS方法來(lái)做回歸的話(huà),那么就會(huì)得到途中紅色的那條線(xiàn);如果將這個(gè)異常點(diǎn)剔除掉的話(huà),那么就可以得到圖中藍(lán)色的那條線(xiàn)。顯然,藍(lán)色的線(xiàn)比紅色的線(xiàn)對(duì)數(shù)據(jù)有更強(qiáng)的解釋性,這就是OLS在做回歸分析時(shí)候的弊端。


但在此情況下中位數(shù)卻非常穩(wěn)健,于是將LS估計(jì)的目標(biāo)函數(shù)改為使各殘差平方的中位數(shù)最小,得到的“最小平方中位數(shù)”估計(jì)應(yīng)該是穩(wěn)健的,這就是LMS。

同理,由于在單變量情況下的“調(diào)整均數(shù)”(trimmed mean)是穩(wěn)健的,所以考慮在回歸情形下如果把殘差較大的點(diǎn)棄去不計(jì),目標(biāo)函數(shù)是使排序在前一部分較小的殘差平方合計(jì)最小,這就是LTS。

生活中常見(jiàn)的一個(gè)應(yīng)用穩(wěn)健統(tǒng)計(jì)(Robust Statistics)的例子是, 在一些主觀性的評(píng)價(jià)比賽打分中, 比如歌唱比賽,藝術(shù)體操比賽, 去掉一個(gè)最高分, 去掉一個(gè)最低分, 剩下的評(píng)分再取平均值為選手的得分, 這樣就非常有效地防止了某些評(píng)委故意打出一個(gè)特別高的分或者特別低的分來(lái)影響選手的最終得分,這樣的評(píng)分統(tǒng)計(jì)規(guī)則就是穩(wěn)健的。

關(guān)于穩(wěn)健回歸,可以參考這篇文章:穩(wěn)健回歸
以及這篇文章:線(xiàn)性回歸有離群值也不怕?穩(wěn)健回歸

由于上述原因,我們通過(guò)普通最小二乘法估計(jì)出來(lái)的模型,有可能存在異方差問(wèn)題(可以通過(guò)上面的方法對(duì)殘差進(jìn)行異方差檢驗(yàn)),而我們單個(gè)參數(shù)的t統(tǒng)計(jì)量,其公式等于系數(shù)值除以其標(biāo)準(zhǔn)誤。如果存在異方差情況下,這個(gè)標(biāo)準(zhǔn)誤是不準(zhǔn)確的,因此我們得到的t檢驗(yàn)量也不準(zhǔn)確,此時(shí)應(yīng)該考慮使用穩(wěn)健的t檢驗(yàn)量來(lái)進(jìn)行檢驗(yàn)。
在R中,我們可以使用lmtest包中的coeftest()函數(shù)來(lái)進(jìn)行穩(wěn)健的t統(tǒng)計(jì)量檢驗(yàn):

coeftest(linear_model, vcov. = vcov)

有關(guān)上述知識(shí),可以參考:標(biāo)準(zhǔn)誤兩三事:為什么一使用穩(wěn)健標(biāo)準(zhǔn)誤,我的系數(shù)就不顯著了?

這篇文章挺好,收藏一下:R語(yǔ)言回歸篇

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,283評(píng)論 6 530
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 97,947評(píng)論 3 413
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 175,094評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 62,485評(píng)論 1 308
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,268評(píng)論 6 405
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 54,817評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,906評(píng)論 3 440
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,039評(píng)論 0 285
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,551評(píng)論 1 331
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,502評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,662評(píng)論 1 366
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,188評(píng)論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 43,907評(píng)論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,304評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,563評(píng)論 1 281
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,255評(píng)論 3 389
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,637評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容