前言
不知道你是否見過這樣的圖:
企鵝分組.png
這是對三組數據的線性回歸,來自經典數據集“帕爾默群島的企鵝”
- 橫軸(bill_depth)表示嘴峰深度。
- 縱軸(bill_length)表示嘴峰長度。
- 不同顏色表示不同種類的企鵝。
在看到這樣的圖時,你是否會有疑問:置信區間為什么會出現兩邊寬,中間窄的情況咧?
我們從線性模型開始
線性模型
假設響應變量和自變量
存在簡單線性關系(兩者可以用最簡單的線性模型描述):
其中是回歸參數(回歸系數),
是誤差項。
根據這個式子我們可以得到預測值與自變量之間的關系:
最小二乘估參數
- 定義殘差
如果我們找到一條直線,使得每個預測值和實際值之間的差的平方和(或者絕對值、正負項和)最小,也就是殘差平方和最小, 此時的直線最接近實際的數據,由此而來只需要計算殘差平方和(residual sum of squares ,RSS),并求其取最小值時的, 即可找到擬合直線,前人已經計算過了,使RSS最小的參數估計值是:
置信區間
某一個預測值的置信區間
(confidence interval)可以用以下的式子表達:
其中某一個預測值的標準誤差
(standard error)可以用以下的式子表達:
其中:
-
是殘差的標準誤。
-
是樣本大小。
-
是自變量的均值。
-
是特定的自變量。
合在一起就得到了預測值置信區間的表達式:
結論
由上式可知當取到
附近時,
逐漸變小,使得偏差部分整體變小,那么此時的置信區間就會變小,反映在圖上就是中間窄、兩邊寬了;
還有一種直觀的理解是:左側點對右側預測值的影響沒有那么大,右側點對左側預測值的影響也沒有那么大,但是兩邊的點都會為預測中間的值作出貢獻,因此中間的預測值實際上是在獲得了更多信息(兩側的點)后預測得到的,加上回歸直線一定會過點,所以預測中間值的信心就很足,置信區間就窄一點。