大家早安、午安、晚安,一起來學習機器學習算法中回歸部分的方法啦,每次都是滿滿的干貨,大家看的時候多喝水哈,正文開始!
回歸分析(Regression Analysis)-定義與分類
回歸分析(Regression Analysis)是一種統計學上分析數據的方法,目的在于了解兩個或多個變數間是否相關、相關方向與強度,并建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具體的來說,回歸分析可以幫助人們了解在只有一個自變量變化時因變量的變化量。一般來說,通過回歸分析我們可以由給出的自變量估計因變量的條件期望。回歸分析是建立因變數 ?Y(或稱依變數,反應變數)與自變數 X(或稱獨變數,解釋變數)之間關系的模型。
回歸分析的主要算法包括:線性回歸(Linear Regression)、邏輯回歸(Logistic Regression)、多項式回歸(Polynomial Regression)、逐步回歸(Step Regression)、嶺回歸(Ridge Regression)、套索回歸(Lasso Regression)、彈性網回歸(ElasticNet)等。
接下來就分別學習下以上的回歸方法
1、基于最小均方誤差求解回歸參數(最小二乘法,ordinary least squares)
線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關系。用一個方程式來表示它,即Y=a+b*X + e,其中a表示截距,b表示直線的斜率,e是誤差項。這個方程可以根據給定的預測變量(s)來預測目標變量的值。通常使用最小二乘法來獲取擬合曲線中的回歸參數。最小二乘法對于觀測數據,它通過最小化每個數據點到線的垂直偏差平方和來計算最佳擬合線。
線性回歸實例編程實現
1)準備數據:
備注:圖3中的代碼中,info是從文件中讀入的數據,類型是字符串,所以,需要用dtype=float將其轉換為數字形式
2)準備線性回歸算法,并將原始數據點和擬合后的曲線繪制出來
計算到這里,我感覺很多朋友要提問了,1)基于圖2中的最小二乘法來求解平方誤差時,若xTx不存在逆矩陣怎么辦?2)當數據量很大時,求解矩陣乘法及其逆矩陣,是不是很困難呢?3)如何判斷模型擬合的效果,是否出現欠擬合和過擬合?...接下來的內容會逐步解決哈(備注:先給出欠擬合和過擬合的直觀展示)
2、局部加權線性回歸(Locally weighted linear regression, LWLR)
觀察上圖6中不同的擬合程度可以發現,對特征的不同把握程度,將影響曲線的擬合程度。圖6中的欠擬合現象,表明沒有明確的把握數據結構關系;而過擬合現象,則是太過于沉溺于符合訓練數據,太沉溺與每個細節,導致沒有把握全局數據走向,不能很好的預測待測試的數據。針對欠擬合現象,局部加權線性回歸算法應運而生。
其實,在預測某一個數據點時,它周圍的點對預測他的取值的參考性要更加大,因此,可以考慮加重這個帶預測值周圍點的權重。這就是局部加權線性回歸算法的基本思想,用式子可以表示為:
接下來,再看一個局部加權線性回歸的栗子
因為,不同的k會影響最終的預測值y,所以,可以對比不同的k的擬合效果,觀察是否欠擬合或者過擬合。
備注:在這個畫圖中,需要先對數據進行排序,否則畫面太美,不忍直視,經驗之談,捂臉
不難發現,k=0.25之前,處于欠擬合的狀態;k=0.01及更小的數值時,效果難以直視,過擬合太嚴重;k=0.15左右時效果還行。因此,k的選擇很重要。
以上,局部加權線性回歸算法較好的解決了欠擬合的現象,但是它增加了一定的計算量,同時,如何確定k也需要在實際應用中好好測試。
最小二乘法、局部加權線性回歸方法都基于X_T*X存在逆矩陣,也就是他是滿秩矩陣,實際表示這些特征值之間不相關。辣么,如果特征內,有一些特征是相關的,那么勢必造成特征矩陣的非滿秩,此時|X_T*X|趨于0,無法進行后面的回歸參數的計算。腫么辦,接下往下看~
3、嶺回歸(Ridge Regression)
如果數據的特征的數目比樣本的數目還多,那么輸入數據的矩陣X將不是滿秩矩陣(可以認為是列向量也就是特征值之間具有相關性)。非滿秩矩陣不存在逆矩陣,也就是出現了我們上面一直強調的問題。上面提到的兩種方法都用不上了。嶺回歸趕來幫忙啦。
在圖11中,w叫做嶺回歸估計,λ為嶺參數,以w的函數為因變量,以k為自變量,構成了嶺跡圖。嶺回歸是一種專用于共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘法,通過放棄最小二乘法的無偏性,損失部分信息、降低精度為代價獲得回歸系數更為符合實際、更為可靠的回歸方法,對共線性數據的擬合要強于最小二乘法。嶺回歸中回歸系數的來源是通過最優化下列模型來得到的(β就是圖11中的w):
先看一下嶺回歸的編程實現。
1)準備數據
2)嶺回歸系數的計算
備注:在計算嶺回歸參數之前,需要將數據進行標準化。在此過程中,將λ進行指數級的變化,從e^-10~e^20。下面的圖表示嶺回歸估計與λ對數的關系。
當λ為0時,結果跟普通意義的多元線性回歸的最小二乘解完全一樣;在λ較小時,各個回歸系數比較大;當λ增大時,各個回歸系數取值迅速減小,即從不穩定趨于穩定。上圖中類似喇叭形狀的嶺跡圖,一般存在多重共線性。(因為有8個特征值,所以回歸系數之也有8個,對應8條曲線)
λ選擇:一般通過觀察,選擇喇叭口附近的值,此時各個回歸系數趨于穩定,而且預測值與實際值的平方誤差不太大。但是也不能選太大的λ,因為,上圖中,貌似隨著λ的增大,回歸系數的取值大小趨于穩定,但是實際對應的平方誤差已經非常大了。為了定量地找到最佳參數值,還需要進行交叉驗證。另外,要判斷哪些變量對結果預測最有影響力,可以觀察上圖中對應系數的大小。
關于上述λ的變化,我覺得知乎上一個大牛解釋的值得參考,我截個圖:
我覺得圖15中知乎大牛的解釋,可能較好的說明了圖14中粉色和黃綠色曲線代表的回歸參數的取值變化。當然,如果理解的不對,請大牛告知一下,非常感謝。
既然上述提到嶺回歸中的嶺參數比較難確定,辣么,是不是有改進的方法呢?
4、套索方法(Lasso,The Least Absolute Shrinkage and Selection Operator)
機器學習實戰中書表示:在增加如下圖16約束時,普通的最小二乘法回歸會得到與嶺回歸的一樣的公式:
上式限定了所有回歸系數的平方和不能大于λ。使用普通的最小二乘法回歸在當兩個或更多的特征相關時,可能會得出一個很大的正系數和一個很大的負系數。正是因為上述限制條件的存在,使用嶺回歸可以避免這個問題。與嶺回歸類似,另一個縮減方法Lasso也對回歸系數做了限定,對應的約束條件如下:
Lasso中對回歸參數的限制,在λ較小時,一些系數會因此被迫縮減到0,這個特性可以幫助我們更好地理解數據。但在這個新的約束條件下求解回歸系數,需要使用二次規劃算法,極大的增加了計算復雜度,不太適用。
5、前向逐步回歸算法
前向逐步回歸算法屬于一種貪心算法,即每一步都盡可能減少誤差。一開始,所有的權重都設置為1,然后每一步所做的決策是對某個權重增加或減少一個很小的值。
回歸算法先寫到這里吧,其他回歸算法以后接著學,希望對大家有所幫助,也請大牛不吝賜教,謝謝