1. 模型簡(jiǎn)介
模型思想
多元線性回歸(multiple linear regression) 模型的目的是構(gòu)建一個(gè)回歸方程,利用多個(gè)自變量估計(jì)因變量,從而解釋和預(yù)測(cè)因變量的值。多元線性回歸模型中的因變量和大多數(shù)自變量為定量值,某些定性指標(biāo)需要轉(zhuǎn)換為定量值才能應(yīng)用到回歸方程中。
意義
事物的聯(lián)系也是多方面的,而影響事物發(fā)展的因素是多樣的。由多個(gè)自變量的最優(yōu)組合共同來(lái)估計(jì)因變量,比單一的自變量預(yù)測(cè)更有效,更符合實(shí)際。
比如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白、血清總膽固醇、甘油三酯等多種指標(biāo)的影響。但很多情況下,由于自變量的單位是不一樣的,需要做標(biāo)準(zhǔn)化處理。比如在消費(fèi)水平預(yù)測(cè)模型中,工資水平、受教育程度、職業(yè)、地區(qū)、家庭負(fù)擔(dān)等因素都會(huì)影響到消費(fèi)水平,而這些影響因素的單位和量級(jí)肯定是不同的,雖然不會(huì)影響自變量的重要程度,但是對(duì)回歸系數(shù)的大小還是有直接影響作用的。標(biāo)準(zhǔn)化回歸系數(shù)沒(méi)有單位,其值越大,說(shuō)明該自變量對(duì)因變量的影響越大。
2. 多元線性回歸模型
一般形式
其中,Y為因變量,X為自變量,上式中共有k個(gè)自變量和一個(gè)常數(shù)項(xiàng)。如果自變量經(jīng)過(guò)標(biāo)準(zhǔn)化處理,則上式?jīng)]有常數(shù)項(xiàng),換句話說(shuō),Y的期望值與自變量的函數(shù)關(guān)系如下:
上式也被稱為多元總體線性回歸方程。
如果有n組觀測(cè)數(shù)據(jù),則可以采用方程組形式表示
其矩陣形式為:
簡(jiǎn)化形式見(jiàn)下式:
條件
使用多元線性回歸必須滿足如下的幾個(gè)條件:(1) 因變量Y和自變量X之間具有線性關(guān)系。(2) 各觀測(cè)值Y相互獨(dú)立。(3) 殘差e服從均值為0,方差為δ^2的正態(tài)分布,也就是對(duì)自變量的任意一組觀測(cè)值,因變量Y具有相同的方差,且服從正態(tài)分布。
參數(shù)估計(jì)
多元線性回歸方程有k+1個(gè)待估計(jì)的系數(shù)
利用一組觀測(cè)值可以對(duì)它們進(jìn)行估計(jì),常用的參數(shù)估計(jì)方法是最小二乘法。普通最小二乘法過(guò)最小化誤差的平方和尋找最佳函數(shù),常用矩陣運(yùn)算求解系數(shù)矩陣。
假設(shè)利用上式計(jì)算得到了估計(jì)的系數(shù)矩陣β,則可以進(jìn)一步計(jì)算樣本擬合值或回歸值。
其中,Y的某個(gè)分量的擬合函數(shù)為
對(duì)于真實(shí)的樣本觀測(cè)值和擬合值之間的差值,我們稱為殘差:
最小二乘法的思想就是使得樣本數(shù)據(jù)的殘差平方和最小,進(jìn)而得到最優(yōu)的回歸系數(shù)。即使得
取得最小值。利用上式對(duì)k+1個(gè)系數(shù)求偏導(dǎo)數(shù),并使得導(dǎo)數(shù)為0,即求得β的普通最小二乘估計(jì)量。矩陣計(jì)算公式參考上邊系數(shù)矩陣估計(jì)方程。
3. 模型檢驗(yàn)與評(píng)價(jià)
方差分析
我們假設(shè)系數(shù)全為0,利用傳統(tǒng)的假設(shè)檢驗(yàn)方法,計(jì)算F檢驗(yàn)或t檢驗(yàn)統(tǒng)計(jì)量,驗(yàn)證回歸方程是否有統(tǒng)計(jì)學(xué)意義。如果利用excel或spss,可以得到如下圖所示的回歸方差分析表。
如果F值大于置信邊界值,或P小于0.01,則認(rèn)為系數(shù)不全相等且回歸方程有統(tǒng)計(jì)學(xué)意義。
決定系數(shù)
決定系數(shù)R^2,取值范圍為[0,1],代表自變量能夠解釋因變量的比例,其值越接近1,說(shuō)明模型對(duì)數(shù)據(jù)的擬合程度越好。
復(fù)相關(guān)系數(shù)
可以用來(lái)度量因變量Y和自變量X之間的線性相關(guān)程度,亦即觀察值和估計(jì)值之間的相關(guān)程度。其值R為決定系數(shù)的平方根。
偏回歸平方和
指的是在固定其他k-1個(gè)自變量的條件下,某一自變量對(duì)因變量Y的貢獻(xiàn)程度或影響程度。相當(dāng)于在回歸方程中剔除某自變量后引起回歸平方和的減少量,或者在k-1個(gè)自變量的基礎(chǔ)上增加某自變量后引起的回歸平方和的增加量。
SS回(X)指的是偏回歸平方和,其值越大說(shuō)明相應(yīng)的自變量越重要。
t檢驗(yàn)方法與偏回歸平方和檢驗(yàn)等價(jià),利用假設(shè)檢驗(yàn)的形式驗(yàn)證某自變量是否對(duì)因變量有顯著的影響作用,其驗(yàn)證方法與F檢驗(yàn)類似,t檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式如下:
4. 案例解析
暫時(shí)先分享幾個(gè)其他人的博客吧。
首先是最簡(jiǎn)單的例子,可以手工計(jì)算的小栗子,請(qǐng)參考這個(gè)課件,一邊講概念,一邊進(jìn)行具體的計(jì)算。
然后是利用SPSS這個(gè)統(tǒng)計(jì)軟件的案例,軟件功能強(qiáng)大,但是使用起來(lái)還要多看說(shuō)明,不然有些功能還是不知道怎么實(shí)現(xiàn)。
再然后是強(qiáng)大的統(tǒng)計(jì)編程R語(yǔ)言的解讀,強(qiáng)大的繪圖功能可以方便我們做出很多好看的分析圖表來(lái),比如下面這張圖。
最后是Python語(yǔ)言的實(shí)現(xiàn)博客簡(jiǎn)易篇和提升篇,兩篇的難易程度不同,大家可以自行選擇。
參考文獻(xiàn)
[1]. 課件-多元線性回歸分析-結(jié)合例子來(lái)講,容易理解
[2]. 百度百科-多元線性回歸-簡(jiǎn)單介紹
[3]. 博客-多元線性回歸-公式很詳細(xì)