線性回歸/局部加權線性回歸/嶺回歸/前向逐步回歸算法學習筆記-Python

大家早安、午安、晚安，一起來學習機器學習算法中回歸部分的方法啦，每次都是滿滿的干貨，大家看的時候多喝水哈，正文開始！

回歸分析(Regression Analysis)-定義與分類

回歸分析（Regression Analysis）是一種統計學上分析數據的方法，目的在于了解兩個或多個變數間是否相關、相關方向與強度，并建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具體的來說，回歸分析可以幫助人們了解在只有一個自變量變化時因變量的變化量。一般來說，通過回歸分析我們可以由給出的自變量估計因變量的條件期望。回歸分析是建立因變數 ?Y（或稱依變數，反應變數）與自變數 X（或稱獨變數，解釋變數）之間關系的模型。

回歸分析的主要算法包括：線性回歸(Linear Regression)、邏輯回歸(Logistic Regression)、多項式回歸(Polynomial Regression)、逐步回歸(Step Regression)、嶺回歸(Ridge Regression)、套索回歸(Lasso Regression)、彈性網回歸(ElasticNet)等。

接下來就分別學習下以上的回歸方法

1、基于最小均方誤差求解回歸參數（最小二乘法，ordinary least squares）

線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中，因變量是連續的，自變量可以是連續的也可以是離散的，回歸線的性質是線性的。線性回歸使用最佳的擬合直線（也就是回歸線）在因變量（Y）和一個或多個自變量（X）之間建立一種關系。用一個方程式來表示它，即Y=a+b*X + e，其中a表示截距，b表示直線的斜率，e是誤差項。這個方程可以根據給定的預測變量（s）來預測目標變量的值。通常使用最小二乘法來獲取擬合曲線中的回歸參數。最小二乘法對于觀測數據，它通過最小化每個數據點到線的垂直偏差平方和來計算最佳擬合線。

圖1

圖2

線性回歸實例編程實現

1）準備數據：

圖3

備注：圖3中的代碼中，info是從文件中讀入的數據，類型是字符串，所以，需要用dtype=float將其轉換為數字形式

2）準備線性回歸算法，并將原始數據點和擬合后的曲線繪制出來

圖4

圖5

計算到這里，我感覺很多朋友要提問了，1）基于圖2中的最小二乘法來求解平方誤差時，若xTx不存在逆矩陣怎么辦？2）當數據量很大時，求解矩陣乘法及其逆矩陣，是不是很困難呢？3）如何判斷模型擬合的效果，是否出現欠擬合和過擬合？...接下來的內容會逐步解決哈（備注：先給出欠擬合和過擬合的直觀展示）

圖6 不同程度的擬合對比

2、局部加權線性回歸(Locally weighted linear regression, LWLR)

觀察上圖6中不同的擬合程度可以發現，對特征的不同把握程度，將影響曲線的擬合程度。圖6中的欠擬合現象，表明沒有明確的把握數據結構關系；而過擬合現象，則是太過于沉溺于符合訓練數據，太沉溺與每個細節，導致沒有把握全局數據走向，不能很好的預測待測試的數據。針對欠擬合現象，局部加權線性回歸算法應運而生。

其實，在預測某一個數據點時，它周圍的點對預測他的取值的參考性要更加大，因此，可以考慮加重這個帶預測值周圍點的權重。這就是局部加權線性回歸算法的基本思想，用式子可以表示為：

圖7 局部加權線性回歸

接下來，再看一個局部加權線性回歸的栗子

圖8 局部加權線性回歸算法實現

因為，不同的k會影響最終的預測值y，所以，可以對比不同的k的擬合效果，觀察是否欠擬合或者過擬合。

圖9 對比不同k值對局部加權線性回歸擬合效果的影響-代碼

備注：在這個畫圖中，需要先對數據進行排序，否則畫面太美，不忍直視，經驗之談，捂臉

圖10 對比不同k值對局部加權線性回歸擬合效果的影響-效果圖

不難發現，k=0.25之前，處于欠擬合的狀態；k=0.01及更小的數值時，效果難以直視，過擬合太嚴重；k=0.15左右時效果還行。因此，k的選擇很重要。

以上，局部加權線性回歸算法較好的解決了欠擬合的現象，但是它增加了一定的計算量，同時，如何確定k也需要在實際應用中好好測試。

最小二乘法、局部加權線性回歸方法都基于X_T*X存在逆矩陣，也就是他是滿秩矩陣，實際表示這些特征值之間不相關。辣么，如果特征內，有一些特征是相關的，那么勢必造成特征矩陣的非滿秩，此時|X_T*X|趨于0，無法進行后面的回歸參數的計算。腫么辦，接下往下看~

3、嶺回歸(Ridge Regression)

如果數據的特征的數目比樣本的數目還多，那么輸入數據的矩陣X將不是滿秩矩陣(可以認為是列向量也就是特征值之間具有相關性)。非滿秩矩陣不存在逆矩陣，也就是出現了我們上面一直強調的問題。上面提到的兩種方法都用不上了。嶺回歸趕來幫忙啦。

圖11 嶺回歸的定義

在圖11中，w叫做嶺回歸估計，λ為嶺參數，以w的函數為因變量，以k為自變量，構成了嶺跡圖。嶺回歸是一種專用于共線性數據分析的有偏估計回歸方法，實質上是一種改良的最小二乘法，通過放棄最小二乘法的無偏性，損失部分信息、降低精度為代價獲得回歸系數更為符合實際、更為可靠的回歸方法，對共線性數據的擬合要強于最小二乘法。嶺回歸中回歸系數的來源是通過最優化下列模型來得到的（β就是圖11中的w）：

圖嶺回歸模型

先看一下嶺回歸的編程實現。

1)準備數據

圖12

2）嶺回歸系數的計算

圖13

備注：在計算嶺回歸參數之前，需要將數據進行標準化。在此過程中，將λ進行指數級的變化，從e^-10~e^20。下面的圖表示嶺回歸估計與λ對數的關系。

圖14 嶺回歸估計與嶺參數的相互關系

當λ為0時，結果跟普通意義的多元線性回歸的最小二乘解完全一樣；在λ較小時，各個回歸系數比較大；當λ增大時，各個回歸系數取值迅速減小，即從不穩定趨于穩定。上圖中類似喇叭形狀的嶺跡圖，一般存在多重共線性。（因為有8個特征值，所以回歸系數之也有8個，對應8條曲線）

λ選擇：一般通過觀察，選擇喇叭口附近的值，此時各個回歸系數趨于穩定，而且預測值與實際值的平方誤差不太大。但是也不能選太大的λ，因為，上圖中，貌似隨著λ的增大，回歸系數的取值大小趨于穩定，但是實際對應的平方誤差已經非常大了。為了定量地找到最佳參數值，還需要進行交叉驗證。另外，要判斷哪些變量對結果預測最有影響力，可以觀察上圖中對應系數的大小。

關于上述λ的變化，我覺得知乎上一個大牛解釋的值得參考，我截個圖：

圖15

我覺得圖15中知乎大牛的解釋，可能較好的說明了圖14中粉色和黃綠色曲線代表的回歸參數的取值變化。當然，如果理解的不對，請大牛告知一下，非常感謝。

既然上述提到嶺回歸中的嶺參數比較難確定，辣么，是不是有改進的方法呢？

4、套索方法(Lasso，The Least Absolute Shrinkage and Selection Operator)

機器學習實戰中書表示：在增加如下圖16約束時，普通的最小二乘法回歸會得到與嶺回歸的一樣的公式：

圖16

上式限定了所有回歸系數的平方和不能大于λ。使用普通的最小二乘法回歸在當兩個或更多的特征相關時，可能會得出一個很大的正系數和一個很大的負系數。正是因為上述限制條件的存在，使用嶺回歸可以避免這個問題。與嶺回歸類似，另一個縮減方法Lasso也對回歸系數做了限定，對應的約束條件如下：

圖17

Lasso中對回歸參數的限制，在λ較小時，一些系數會因此被迫縮減到0，這個特性可以幫助我們更好地理解數據。但在這個新的約束條件下求解回歸系數，需要使用二次規劃算法，極大的增加了計算復雜度，不太適用。

5、前向逐步回歸算法

前向逐步回歸算法屬于一種貪心算法，即每一步都盡可能減少誤差。一開始，所有的權重都設置為1，然后每一步所做的決策是對某個權重增加或減少一個很小的值。

圖18 前向逐步回歸算法偽代碼

圖18 前向逐步回歸算法代碼實現

回歸算法先寫到這里吧，其他回歸算法以后接著學，希望對大家有所幫助，也請大牛不吝賜教，謝謝

最后編輯于：2017.12.06 12:25:00

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,572評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,071評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,409評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,569評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,360評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,895評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,979評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,123評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,643評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,559評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,742評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,250評論 5贊 356
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,981評論 3贊 346
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,363評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,622評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,354評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,707評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

線性回歸/局部加權線性回歸/嶺回歸/前向逐步回歸算法學習筆記-Python

線性回歸/局部加權線性回歸/嶺回歸/前向逐步回歸算法學習筆記-Python

回歸分析(Regression Analysis)-定義與分類

1、基于最小均方誤差求解回歸參數（最小二乘法，ordinary least squares）

2、局部加權線性回歸(Locally weighted linear regression, LWLR)

3、嶺回歸(Ridge Regression)

4、套索方法(Lasso，The Least Absolute Shrinkage and Selection Operator)

5、前向逐步回歸算法

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

線性回歸/局部加權線性回歸/嶺回歸/前向逐步回歸算法學習筆記-Python

回歸分析(Regression Analysis)-定義與分類

1、基于最小均方誤差求解回歸參數（最小二乘法，ordinary least squares）

2、局部加權線性回歸(Locally weighted linear regression, LWLR)

3、嶺回歸(Ridge Regression)

4、套索方法(Lasso，The Least Absolute Shrinkage and Selection Operator)

5、前向逐步回歸算法

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频