多元線性回歸模型
多元性先回歸相較于一元線性回歸更為泛化,后者可以看做是前者的特例。對于多元線性模型,應(yīng)變量Y與自變量 X1 , X2 , … , Xk 存在線性關(guān)系,那么對于每一個(gè)樣本集Yi,都有以下公式成立:
通常在金融領(lǐng)域中,公式往往被改寫成以下的形式,兩者只是參數(shù)名稱做了調(diào)整,為了與我們常說的alpha(超額收益)和beta(風(fēng)險(xiǎn)收益)能夠匹配上。
為了能夠找到一條直線(或者超平面)盡可能多的擬合這些觀測集中的樣本 i = 1 , 2 , … , n,我們將使用最小二乘法(OLS),通過最小化預(yù)測值與實(shí)際值直接誤差的平方和,也即使 ∑?i^2最小,來求得最終解。之所以用?i^2 而非 ?i,原因在于平方避免了發(fā)生正負(fù)數(shù)相抵的情況從而影響了對誤差程度的統(tǒng)計(jì)。另外還有一些其他的數(shù)學(xué)特性便于求導(dǎo)計(jì)算,這里不做深入討論。
線性模型參數(shù)求解
我們用Y表示真實(shí)值,用Y_hat表示通過線性回歸模型得到的預(yù)測值
當(dāng)我們通過最小二乘法確定回歸方程的系數(shù)參數(shù)后,我們可以使用新的觀測樣本,根據(jù)樣本中這些確定的多元自變量 X1 , X2 , … , Xk 值來預(yù)測應(yīng)變量Y值。
每一個(gè) βj 參數(shù),都體現(xiàn)了在其他相關(guān)β參數(shù)不變的情況下,Y會隨Xj變化的程度。
現(xiàn)在讓我們來動(dòng)手構(gòu)建一個(gè)二元回歸方程,應(yīng)變量是Y,自變量是X1 和 X2:
我們使用Python的statsmodels庫提供的函數(shù)進(jìn)行模型參數(shù)求解。
最終我們得到了線性方程的參數(shù) β0 , β1 , β2 ,構(gòu)建出了線性方程:
需要注意的是,這些參數(shù)都是通過對各個(gè)自變量求偏導(dǎo)(另其=0)而求得。因此,現(xiàn)在Y可以表示為:
這里可以看做是 2 * X1 加上一個(gè) X ^ 2 拋物線。
然而在求解公式參數(shù)時(shí),X1的系數(shù)是仍是 1 ,這里因?yàn)椋嘣€性回歸中,元素是被分隔開來處理的,這里假設(shè)其余變量保持不變時(shí),Y隨X1變化的程度。
多元線性回歸模型在股票分析中的應(yīng)用
在股票分析中也有類似的情況,在對兩只股票應(yīng)用一元線性回歸模型,可能會得出很高的β 值(表示高度相關(guān))。但如果我們此時(shí)引入第三只股票(像標(biāo)普500指數(shù)ETF,追蹤標(biāo)普500指數(shù))作為一個(gè)完全獨(dú)立的變量,我們會發(fā)現(xiàn)前兩只股票的關(guān)聯(lián)性完全是因?yàn)樗麄儾▌?dòng)與標(biāo)普500指數(shù)保持高度同步。這是很有用的,因?yàn)檫@說明了標(biāo)普500可能真正地預(yù)言了這兩只股票的漲跌,遠(yuǎn)比僅僅分析這兩只股票漲跌的相關(guān)性來的有效。這種方法能夠使我們更全面地衡量兩只股票的顯著性,避免片面地推斷而混淆問題原因,進(jìn)而得出錯(cuò)誤的結(jié)論。詳細(xì)實(shí)現(xiàn)如下:
我們首先獲取兩只股票AT&T與費(fèi)哲金服的股價(jià)數(shù)據(jù),并應(yīng)用線性回歸模型。
隨后,我們引入標(biāo)普500ETF數(shù)據(jù),將其作為一個(gè)新維度下的自變量引入模型進(jìn)行回歸:
在得出模型的“參數(shù)”后,下一步就是分析模型結(jié)果是否足夠可靠。一個(gè)比較容易上手的辦法是,將自變量、預(yù)測值(應(yīng)變量)和真實(shí)值進(jìn)行可視化展現(xiàn),可以過濾一些明顯存在的問題。
下圖中黃色為預(yù)測值,藍(lán)色為AT&T的真實(shí)價(jià)格
未完待續(xù)~