線性回歸、邏輯回歸

線性回歸

解決問題

先上一個例子

人們去某一家銀行貸款,貸款額度與工資和年齡的關系如下:

工資 年齡 額度
4000 25 20000
8000 30 70000
5000 28 35000
7500 33 50000
12000 40 85000

預測,下一個人去銀行貸款的額度是多少?

工資和年齡對貸款額度的影響有多大?

思路推理

工資和年齡是我們的兩個特征,額度是我們想預測的結果,這個結果是一個具體的數值。

1.png

對于每一個樣本,都存在誤差,記做:

2.png

我們應該要讓誤差越小,那我們的參數就越好,我們的目的還是要求參數 \theta。

gif.latex.gif

這時,我們作出一個假設,所有樣本數據的誤差是獨立且具有相同分布,服從高斯分布的。

3.png

高斯分布的y坐標是概率值,x坐標是各個樣本的誤差。這里可以看出我們的假設就是誤差越大的概率會比較小,大部分的誤差都接近于0,這樣的分布才是我們所希望的分布情況。

下面是高斯分布的公式:

屏幕快照 2018-01-19 21.42.01.png

中間的公式就是高斯分布的公式。

這時我們想,由于誤差是服從高斯分布的,是不是只有當每次誤差的概率越大,那誤差就越接近于0啊,也是我們想要的情況。

所以我們把所有誤差的概率相乘,以便讓此結果最大,這樣就它的似然函數:

屏幕快照 2018-01-19 21.46.57.png

乘法想求最大值難解,我們轉換為對數似然以便就加法最大值。

屏幕快照 2018-01-19 21.49.51.png

化簡過程略過若干步驟,最后上面試子,要想讓最上面那個式子最大,由于它前半部分是個常數,后面是減去一個數,這樣我們讓最后那個數最小就行了。 就是讓這個最小二乘法的式子最小。

這個式子是一個方程,在數學中,我們想求一個函數的的最低點,我們是不是需要求這個函數的偏導等于0的情況就是啊? 是的:

屏幕快照 2018-01-19 21.56.01.png

上面的化簡需要注意的是,無論X還是theta還是y,都是矩陣,需要用矩陣的算法來化簡。

這樣我們就求得theta的一個具體值。哇???

是的,特殊情況(線性回歸)就是能求出來。

結果

不過我們一般都不是這樣去直接求得一個theta,而是用梯度下降的方法去慢慢找一個最優的theta。

梯度下降

當我們得到最小二乘法的目標函數之后,我們需要去求什么樣的theta可以讓這個函數的值是最小的。

屏幕快照 2018-01-19 22.03.28.png

首先,我們可以隨意定義一個theta矩陣,比如{1,1,1,1 … ,1} 里面的元素都是1。

然后我們求出現在的目標函數的值是多少。

然后我們更新theta的值,在次求出目標函數的值。這樣兩次求出的值看誰最小。

當我們更新n次之后,我們可以從這n次里面挑一個能使目標函數的值最小的theta矩陣。

怎么更新theta參數

我們可以先求得在原theta點上,目標函數的導數,數學中,函數在某點的導數就是,函數在這個點上,往下一個方向移動的方向。這樣的話我們可以讓theta往這個方向上移動一定的距離,得到theta更新后的值。

這個更新一定的距離,我們稱為學習率(步長)。

導數需要我們去求,上面的函數中,導數為。

屏幕快照 2018-01-19 22.18.17.png

學習率(步長)我們自己定義, 一般很小,不行就更小。

CodeCogsEqn.gif

alpha為學習率(步長)

梯度下降的常用方式

  • 批量梯度下降: 就是考慮所有的樣本,上式中的m為全部樣本個數(這樣容易得到最優解,但是樣本非常多速度非常慢)
  • 隨機梯度下降: 就是每次就考慮1個樣本,m=1(這樣速度快,但是不一定每次都朝著收斂方向移動)
  • 小批量梯度下降: 每次考慮一部分樣本,m=10(實用)

邏輯回歸

解決問題

邏輯回歸解決的是分類問題。

另一個例子,某次考試的成績出來了,學生們考了2個科目,每個科目的分數為x1和x2,是否通過的結果為y,y的取值為0或1。

預測,下一個人的成績出來后,能否通過考試?

科目1和科目2對考試結果的影響有多大?

CodeCogsEqn-2.gif

y的取值為0或者1。

思路推理

這里我們引入Sigmoid函數

  • Sigmoid函數
屏幕快照 2018-01-19 22.44.57.png

將y帶入函數有:

屏幕快照 2018-01-19 22.54.23.png

我們假設(y==1時)通過考試的概率服從Sigmoid函數的分布,那么沒有通過考試(y==0時)的概率就是1減去通過考試的概率。

推理有:

屏幕快照 2018-01-19 22.55.46.png

我們將式子進行整合,當y=0時,只有右邊的式子;當y=1時,只有左邊的式子,恰好是左邊分類任務的情況。這樣得一個式子可以表達前面的分類任務的兩個式子,這兩部分是等價的。

這樣,就得到了事件發生的概率函數。

回到了概率問題,我們希望當x的取某個值時,通過和未通過的概率都越大越好(就是概率越接近100%最好),這樣才最接近我們現實的情況。

這樣就得到似然函數:

屏幕快照 2018-01-19 23.46.28.png

轉換為梯度下降任務后求導:

屏幕快照 2018-01-19 23.47.57.png

結果

這樣,我們使用梯度下降的方法,先定義一個theta矩陣,

求對數似然函數變換的(損失函數)的值。

然后定義步長,更新theta矩陣,繼續求損失函數的值。

從這n次迭代中挑選使損失函數最小的theta矩陣。

屏幕快照 2018-01-19 23.53.10.png

邏輯回歸實踐

https://github.com/yyllove123/StudyMachineLearning

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,533評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,055評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,365評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,561評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,346評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,889評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,978評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,118評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,637評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,558評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,739評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,246評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,980評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,362評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,619評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,347評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,702評論 2 370

推薦閱讀更多精彩內容

  • AI人工智能時代,機器學習,深度學習作為其核心,本文主要介紹機器學習的基礎算法,以詳細線介紹 線性回歸算法 及其 ...
    erixhao閱讀 13,917評論 0 36
  • 機器學習是做NLP和計算機視覺這類應用算法的基礎,雖然現在深度學習模型大行其道,但是懂一些傳統算法的原理和它們之間...
    在河之簡閱讀 20,524評論 4 65
  • 注:題中所指的『機器學習』不包括『深度學習』。本篇文章以理論推導為主,不涉及代碼實現。 前些日子定下了未來三年左右...
    我偏笑_NSNirvana閱讀 40,058評論 12 145
  • 該文章個人主頁文章鏈接,圖片與公式在這里可顯示 [這里少通汽車,每天只有幾班車通往外界,卻是自我歸零的佳地。—— ...
    瀟慕雨閱讀 622評論 0 0
  • 我夢見一座新蓋的學院 樓上龍飛鳳舞地寫著“菲力浦” 不是人名菲利普 也不是電器飛利浦 就是這幾個字:菲力浦 有人在...
    藍柿閱讀 218評論 5 1