這一章首先介紹多元線性回歸的及其基本統(tǒng)計(jì)量,偏回歸系數(shù),決定系數(shù)R方及adjusted R方,接著對(duì)各自變量的作用進(jìn)行評(píng)價(jià)和選擇,最后是多元線性回歸模型的使用注意事項(xiàng)
知識(shí)清單
- 多元線性回歸
- 回歸模型及方程
- 總體方程的評(píng)價(jià)指標(biāo)
- 各自變量的假設(shè)檢驗(yàn)及評(píng)價(jià)
1. 多元線性回歸
1.1 回歸模型及方程
使用條件
- 有線性關(guān)系
- 觀測(cè)值(應(yīng)變量值)相互獨(dú)立
- 殘差服從正態(tài)分布
R語(yǔ)言實(shí)現(xiàn)多元線性回歸
數(shù)據(jù)例15-1
# data15_1 <- haven::read_sav(
# file="E:\\醫(yī)學(xué)統(tǒng)計(jì)學(xué)(第4版)\\各章例題SPSS數(shù)據(jù)文件\\例15-01.sav")
# colnames(data15_1) <- c("id", "x1", "x2", "x3", "x4", "y")
load(url("https://github.com/x2yline/statistics_note/blob/master/chapter15/%E4%BE%8B15_1.rdata?raw=true"))
head(data15_1, 4)
## id x1 x2 x3 x4 y
## 1 1 5.68 1.90 4.53 8.2 11.2
## 2 2 3.79 1.64 7.32 6.9 8.8
## 3 3 6.02 3.56 6.95 10.8 12.3
## 4 4 4.85 1.07 5.88 8.3 11.6
line.model <- lm(y~x1+x2+x3+x4, data=data15_1)
print(line.model)
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4, data = data15_1)
##
## Coefficients:
## (Intercept) x1 x2 x3 x4
## 5.9433 0.1424 0.3515 -0.2706 0.6382
1.2 總體方程的評(píng)價(jià)指標(biāo)
該部分指標(biāo)對(duì)應(yīng)summary(line.model)的部分結(jié)果
summary(line.model)
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4, data = data15_1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.6268 -1.2004 -0.2276 1.5389 4.4467
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.9433 2.8286 2.101 0.0473 *
## x1 0.1424 0.3657 0.390 0.7006
## x2 0.3515 0.2042 1.721 0.0993 .
## x3 -0.2706 0.1214 -2.229 0.0363 *
## x4 0.6382 0.2433 2.623 0.0155 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.01 on 22 degrees of freedom
## Multiple R-squared: 0.6008, Adjusted R-squared: 0.5282
## F-statistic: 8.278 on 4 and 22 DF, p-value: 0.0003121
回歸方程的方差分析
把總離均差平方和分解為回歸平方和與殘差平和,再作方差分析
f_stat <- summary(line.model)$fstatistic
cat(f_stat)
## 8.277793 4 22
pf(f_stat[1],
df1=f_stat[2],
df2=f_stat[3],
lower.tail=FALSE)
## value
## 0.0003121289
決定系數(shù)R方
與直線回歸定義相同,即回歸平方和/總離均差平方和
ss1 <- sum((line.model$residuals)^2)
ss2 <- sum((data15_1$y-mean(data15_1$y))^2)
R.squared <- 1-(ss1/ss2)
cat(R.squared)
## 0.6008069
復(fù)相關(guān)系數(shù)
: 決定系數(shù)開(kāi)根號(hào)
由于R方總會(huì)隨著模型中自變量的增加而增大,所以后面會(huì)有校正的R方這一算法,即去除由于自變量增加的影響,使其值更能反映模型的好壞
校正的R方:
obj_n <- nrow(data15_1)
var_n <- 4
R.adj <- 1-(1-R.squared)*(obj_n-1)/(obj_n-var_n-1)
cat(R.adj)
## 0.5282263
1.3 各自變量的假設(shè)檢驗(yàn)及評(píng)價(jià)
偏回歸平方和
:從回歸方程總剔除Xi后,所引起的回歸平方和減少量,或在其他自變量的基礎(chǔ)上新增Xi引起的回歸平和的增加量。用SS回(Xi)表示。
F檢驗(yàn)
[
F=\frac{SS_{回}(X_{i})/1}{SS_{殘}/(n-m-1)}
]
t檢驗(yàn)
和F檢驗(yàn)的結(jié)果是一致的,其公式為
[
t_{i}=\frac{b_{i}}{S_{b_{i}}}
]
其中,$b_{i}$為偏回歸系數(shù)的估計(jì)值,$S_{b_{i}}$為$b_{i}$的標(biāo)準(zhǔn)誤計(jì)算比較復(fù)雜,自由度為n-m-1。
R語(yǔ)言中各偏平和檢驗(yàn)的p值
summary(line.model)$coef
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.9432678 2.8285899 2.1011416 0.04730765
## x1 0.1424465 0.3656530 0.3895674 0.70060210
## x2 0.3514655 0.2042042 1.7211469 0.09925903
## x3 -0.2705853 0.1213938 -2.2289878 0.03634597
## x4 0.6382012 0.2432644 2.6234880 0.01551557
倒數(shù)最后兩列分別是t統(tǒng)計(jì)量和p值
標(biāo)準(zhǔn)化回歸系數(shù)
由于自變量單位不同,難以從偏回歸系數(shù)的大小分析其各自的影響程度。
變量標(biāo)準(zhǔn)化是將原始數(shù)據(jù)減去相應(yīng)變量的均數(shù),然后再除以該變量的標(biāo)準(zhǔn)差,計(jì)算得到的回歸方程稱作標(biāo)準(zhǔn)化回歸方程,相應(yīng)的回歸系數(shù)即為標(biāo)準(zhǔn)化回歸系數(shù)
標(biāo)準(zhǔn)化回歸系數(shù)沒(méi)有單位,可以用來(lái)比較各個(gè)自變量Xi對(duì)Y的影響強(qiáng)度,通常在有統(tǒng)計(jì)學(xué)意義的前提下,標(biāo)準(zhǔn)化回歸系數(shù)的絕對(duì)值愈大說(shuō)明相應(yīng)自變量對(duì)Y的作用愈大。
一般回歸系數(shù)有單位,用來(lái)解釋各自變量對(duì)應(yīng)變量的影響,表示在其它自變量保持不變時(shí), 增加或減少一個(gè)單位時(shí)Y的平均變化量。不能用各偏回歸系數(shù)來(lái)比較各自變量對(duì)Y的影響大小。
標(biāo)準(zhǔn)化回歸系數(shù)無(wú)單位,用來(lái)比較各自變量對(duì)應(yīng)變量的影響大小,偏回歸系數(shù)越大,Xi對(duì)Y的影響越大。