線性回歸模型

以一元線性回歸為例,函數(shù)為:

y_i = \beta_{0} + \beta_{1}x_i + \varepsilon_i, i = 1,2,...n

其中,\beta_{0} + \beta_{1}x表示y隨x的變化而線性變化的部分,\beta_0, \beta_1是待求解的參數(shù);\varepsilon 是隨機(jī)誤差,是其他一切不確定因素的綜合,其值不可觀測,通常假定\varepsilonN(0,\sigma^2)

誤差項分析:極大似然估計

因為誤差\varepsilon 服從正態(tài)分布N(0,\sigma ^2),兼通過目標(biāo)函數(shù)移項,得到其概率密度:

p(\varepsilon _i)=\frac{1}{\sqrt{2\pi }\sigma} exp(-\frac{(y_i-\beta _0-\beta_1x_i)^2}{2\sigma ^2} )

希望誤差能盡量為0,因此誤差發(fā)生的概率應(yīng)盡可能地大(根據(jù)正態(tài)分布,越靠近均值,發(fā)生的概率越大?)。使用似然函數(shù)來估計參數(shù),并加以對數(shù)變換使表達(dá)式從連乘變?yōu)檫B加,更好算:

logL(\beta_0,\beta_1)=log\prod_{i=1}^n \frac{1}{\sqrt{2\pi }\sigma} exp(-\frac{(y_i-\beta _0-\beta_1x_i)^2}{2\sigma ^2} )

展開化簡,得到:

Q(\beta_0, \beta_1)=nlog\frac{1}{\sqrt{2\pi } \sigma } -\frac{1}{\sigma ^2}\cdot \frac{1}{2} \sum_{i}^n(y_i=\beta_0-\beta_1x_i)^2

繼續(xù)化簡,忽略常數(shù)項,得到估計參數(shù)的目標(biāo)函數(shù),此為最小二乘法的推導(dǎo)過程。


損失函數(shù)求解:最小二乘法

通過極大似然估計分析誤差項(即最小二乘法),得到損失函數(shù):

Q(\beta_0, \beta_1)=\sum_{i}^n(y_i-\beta_0-\beta_1x_i)^2

待求損失函數(shù)最小時的參數(shù)\beta_0, \beta_1值,即轉(zhuǎn)換為:當(dāng)損失函數(shù)關(guān)于\beta_0, \beta_1的一階偏導(dǎo)數(shù)都等于0時,求解關(guān)于\beta_0, \beta_1的二元二次方程問題。求得:

\beta_1=\sum_{i}^n\frac{(x_i-\bar{x} )(y_i-\bar{y})}{(x_i-\bar{x} )^2} ,?\beta_0=\bar{y} -\beta_1\bar{x}

損失函數(shù)求解:梯度下降法

原理

假設(shè)有m個參數(shù),目標(biāo)損失函數(shù)如下:

J(\beta_0, \beta_1,...\beta_m)=\frac{1}{n} \sum_{i}^n(y_i-\beta_0-\beta_1x_i...-\beta_mx_i)^2

這是一個關(guān)于\beta的多元函數(shù),x_i相當(dāng)于系數(shù)。所以,有幾個\beta待求解,就相當(dāng)于目標(biāo)函數(shù)有幾維。除以n是為了對損失值取平均值(因為樣本量增加,累積的損失值也會增加)。

梯度下降法的思路是:

1. 先確定步長,包括方向和步子大小

步長是學(xué)習(xí)率和方向相乘的矢量。令學(xué)習(xí)率為\alpha ,代表步子的大小,相當(dāng)于步長的模長。方向是梯度的負(fù)方向,在這個方向上函數(shù)值下降的最快,對每一個參數(shù)求偏導(dǎo)可得:

[\frac{\partial J(\beta)}{\beta_1} ,\frac{\partial J(\beta)}{\beta_2} ,...\frac{\partial J(\beta)}{\beta_m} ]

2.?對于每一個\beta,設(shè)定初始值,按照確定好的步長,代入x_i,y_i值,不斷迭代:

\beta_j=\beta_j-\alpha \frac{\partial J(\beta)}{\partial \beta_j} =\beta_j-\alpha \cdot x_{ij}\cdot \frac{1}{n} \sum_{i}^n(y_i-\beta_0-\beta_1x_i...-\beta_mx_i)^2

此處x_{ij}是對\beta_j求導(dǎo)后得出的系數(shù)

3. 直到兩次迭代結(jié)果相差小于預(yù)設(shè)要求即可

批量梯度下降

每次跌代都代入所有樣本,容易得到最優(yōu)解,但是速度很慢。

隨機(jī)梯度下降

每次迭代隨便找一個樣本,速度很快,但不是每次都朝著對的收斂方向,此時m=1。

小批量梯度下降

每次迭代都新取一部分樣本,兼顧速度和精度,此時m=某個比m小很多的數(shù)。


評估指標(biāo)

y_i:真實觀測值,\bar{y} :真實觀測值的平均值,\hat{y} :擬合值(預(yù)測值)

殘差平方和(SSE):擬合數(shù)據(jù)和原始數(shù)據(jù)之差的平方和

總離差平方和(SST):原始數(shù)據(jù)和均值之差的平方和

回歸平方和(SSR):擬合數(shù)據(jù)和原始數(shù)據(jù)均值之差的平方和

確定系數(shù)(R-square):SSR/SST = 1- SSE/SST,如下

R^2=1-\sum_{i}^n\frac{(\hat{y_i}-y_i)^2 }{(y_i-\bar{y_i} )^2}

觀測值、觀測值均值與擬合值的關(guān)系

參考自:

線性回歸與最小二乘法 - 乘風(fēng)

線性回歸算法 - 開發(fā)者學(xué)堂

梯度下降算法詳解 - CDA數(shù)據(jù)分析師

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,316評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,481評論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,241評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,939評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,697評論 6 409
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,182評論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,247評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,406評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,933評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,772評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,973評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,516評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,209評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,638評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,866評論 1 285
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,644評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,953評論 2 373

推薦閱讀更多精彩內(nèi)容

  • AI人工智能時代,機(jī)器學(xué)習(xí),深度學(xué)習(xí)作為其核心,本文主要介紹機(jī)器學(xué)習(xí)的基礎(chǔ)算法,以詳細(xì)線介紹 線性回歸算法 及其 ...
    erixhao閱讀 13,920評論 0 36
  • 摘要:本文結(jié)合實際案例,介紹機(jī)器學(xué)習(xí)的線性回歸模型,包括一元線性回歸和多元線性回歸,以及模型的評估。案例展示用Py...
    刺猬ciwei_532a閱讀 5,001評論 1 8
  • 一到高中,又多了好幾門功課,學(xué)起來非常費勁。感覺自己有心無力,慢慢要被甩掉的感覺。在初中我被定位是成績好的人,到了...
    無衣師尹_a5c9閱讀 549評論 0 0
  • 一路向西,腳步邁向大門。道旁每棵樹的腳下,是從井字塑料網(wǎng)孔中露出的希望,綠得在夜里也明澈。與之相伴的,自然是...
    fusulinids閱讀 276評論 0 0
  • 花 與 愛 麗 絲 攝影師 eatting彡 @犬來八荒 @小陸離 花 與 愛 麗 絲 攝影師 eatting彡
    獨立攝影師閱讀 302評論 0 1