奇異值分解(SVD)原理與在降維中的應用(轉載)

轉載自https://www.cnblogs.com/pinard/p/6251584.html

奇異值分解(Singular Value Decomposition,以下簡稱SVD)是在機器學習領域廣泛應用的算法,它不光可以用于降維算法中的特征分解,還可以用于推薦系統,以及自然語言處理等領域。是很多機器學習算法的基石。本文就對SVD的原理做一個總結,并討論在在PCA降維算法中是如何運用運用SVD的。

1. 回顧特征值和特征向量

    我們首先回顧下特征值和特征向量的定義如下:

Ax=λxAx=λx

其中A是一個n×nn×n的矩陣,xx是一個nn維向量,則我們說λλ是矩陣A的一個特征值,而xx是矩陣A的特征值λλ所對應的特征向量。

求出特征值和特征向量有什么好處呢? 就是我們可以將矩陣A特征分解。如果我們求出了矩陣A的nn個特征值λ1≤λ2≤...≤λnλ1≤λ2≤...≤λn,以及這nn個特征值所對應的特征向量{w1,w2,...wn}{w1,w2,...wn},那么矩陣A就可以用下式的特征分解表示:

A=WΣW?1A=WΣW?1

其中W是這nn個特征向量所張成的n×nn×n維矩陣,而ΣΣ為這n個特征值為主對角線的n×nn×n維矩陣。

一般我們會把W的這nn個特征向量標準化,即滿足||wi||2=1||wi||2=1, 或者說wTiwi=1wiTwi=1,此時W的nn個特征向量為標準正交基,滿足WTW=IWTW=I,即WT=W?1WT=W?1, 也就是說W為酉矩陣。

    這樣我們的特征分解表達式可以寫成

A=WΣWTA=WΣWT

    注意到要進行特征分解,矩陣A必須為方陣。那么如果A不是方陣,即行和列不相同時,我們還可以對矩陣進行分解嗎?答案是可以,此時我們的SVD登場了。

2. ?SVD的定義

SVD也是對矩陣進行分解,但是和特征分解不同,SVD并不要求要分解的矩陣為方陣。假設我們的矩陣A是一個m×nm×n的矩陣,那么我們定義矩陣A的SVD為:

A=UΣVTA=UΣVT

其中U是一個m×mm×m的矩陣,ΣΣ是一個m×nm×n的矩陣,除了主對角線上的元素以外全為0,主對角線上的每個元素都稱為奇異值,V是一個n×nn×n的矩陣。U和V都是酉矩陣,即滿足UTU=I,VTV=IUTU=I,VTV=I。下圖可以很形象的看出上面SVD的定義:

那么我們如何求出SVD分解后的U,Σ,VU,Σ,V這三個矩陣呢?

如果我們將A的轉置和A做矩陣乘法,那么會得到n×nn×n的一個方陣ATAATA。既然ATAATA是方陣,那么我們就可以進行特征分解,得到的特征值和特征向量滿足下式:

(ATA)vi=λivi(ATA)vi=λivi

這樣我們就可以得到矩陣ATAATA的n個特征值和對應的n個特征向量vv了。將ATAATA的所有特征向量張成一個n×nn×n的矩陣V,就是我們SVD公式里面的V矩陣了。一般我們將V中的每個特征向量叫做A的右奇異向量。

如果我們將A和A的轉置做矩陣乘法,那么會得到m×mm×m的一個方陣AATAAT。既然AATAAT是方陣,那么我們就可以進行特征分解,得到的特征值和特征向量滿足下式:

(AAT)ui=λiui(AAT)ui=λiui

這樣我們就可以得到矩陣AATAAT的m個特征值和對應的m個特征向量uu了。將AATAAT的所有特征向量張成一個m×mm×m的矩陣U,就是我們SVD公式里面的U矩陣了。一般我們將U中的每個特征向量叫做A的左奇異向量。

U和V我們都求出來了,現在就剩下奇異值矩陣ΣΣ沒有求出了。由于ΣΣ除了對角線上是奇異值其他位置都是0,那我們只需要求出每個奇異值σσ就可以了。

    我們注意到:

A=UΣVT?AV=UΣVTV?AV=UΣ?Avi=σiui?σi=Avi/uiA=UΣVT?AV=UΣVTV?AV=UΣ?Avi=σiui?σi=Avi/ui

這樣我們可以求出我們的每個奇異值,進而求出奇異值矩陣ΣΣ。

上面還有一個問題沒有講,就是我們說ATAATA的特征向量組成的就是我們SVD中的V矩陣,而AATAAT的特征向量組成的就是我們SVD中的U矩陣,這有什么根據嗎?這個其實很容易證明,我們以V矩陣的證明為例。

A=UΣVT?AT=VΣUT?ATA=VΣUTUΣVT=VΣ2VTA=UΣVT?AT=VΣUT?ATA=VΣUTUΣVT=VΣ2VT

上式證明使用了:UTU=I,ΣT=Σ。UTU=I,ΣT=Σ。可以看出ATAATA的特征向量組成的的確就是我們SVD中的V矩陣。類似的方法可以得到AATAAT的特征向量組成的就是我們SVD中的U矩陣。

    進一步我們還可以看出我們的特征值矩陣等于奇異值矩陣的平方,也就是說特征值和奇異值滿足如下關系:

σi=λi??√σi=λi

這樣也就是說,我們可以不用σi=Avi/uiσi=Avi/ui來計算奇異值,也可以通過求出ATAATA的特征值取平方根來求奇異值。

3. SVD計算舉例

    這里我們用一個簡單的例子來說明矩陣是如何進行奇異值分解的。我們的矩陣A定義為:

A=???011110???A=(011110)

我們首先求出ATAATA和AATAAT

ATA=(011110)???011110???=(2112)ATA=(011110)(011110)=(2112)

AAT=???011110???(011110)=???110121011???AAT=(011110)(011110)=(110121011)

進而求出ATAATA的特征值和特征向量:

λ1=3;v1=(1/2–√1/2–√);λ2=1;v2=(?1/2–√1/2–√)λ1=3;v1=(1/21/2);λ2=1;v2=(?1/21/2)

接著求AATAAT的特征值和特征向量:

λ1=3;u1=???1/6–√2/6–√1/6–√???;λ2=1;u2=???1/2–√0?1/2–√???;λ3=0;u3=???1/3–√?1/3–√1/3–√???λ1=3;u1=(1/62/61/6);λ2=1;u2=(1/20?1/2);λ3=0;u3=(1/3?1/31/3)

利用Avi=σiui,i=1,2Avi=σiui,i=1,2求奇異值:

???011110???(1/2–√1/2–√)=σ1???1/6–√2/6–√1/6–√????σ1=3–√(011110)(1/21/2)=σ1(1/62/61/6)?σ1=3

???011110???(?1/2–√1/2–√)=σ2???1/2–√0?1/2–√????σ2=1(011110)(?1/21/2)=σ2(1/20?1/2)?σ2=1

當然,我們也可以用σi=λi??√σi=λi直接求出奇異值為3–√3和1.

?最終得到A的奇異值分解為:

A=UΣVT=???1/6–√2/6–√1/6–√1/2–√0?1/2–√1/3–√?1/3–√1/3–√??????3–√00010???(1/2–√?1/2–√1/2–√1/2–√)A=UΣVT=(1/61/21/32/60?1/31/6?1/21/3)(300100)(1/21/2?1/21/2)

4. SVD的一些性質

    上面幾節我們對SVD的定義和計算做了詳細的描述,似乎看不出我們費這么大的力氣做SVD有什么好處。那么SVD有什么重要的性質值得我們注意呢?

    對于奇異值,它跟我們特征分解中的特征值類似,在奇異值矩陣中也是按照從大到小排列,而且奇異值的減少特別的快,在很多情況下,前10%甚至1%的奇異值的和就占了全部的奇異值之和的99%以上的比例。也就是說,我們也可以用最大的k個的奇異值和對應的左右奇異向量來近似描述矩陣。也就是說:

Am×n=Um×mΣm×nVTn×n≈Um×kΣk×kVTk×nAm×n=Um×mΣm×nVn×nT≈Um×kΣk×kVk×nT

其中k要比n小很多,也就是一個大的矩陣A可以用三個小的矩陣Um×k,Σk×k,VTk×nUm×k,Σk×k,Vk×nT來表示。如下圖所示,現在我們的矩陣A只需要灰色的部分的三個小矩陣就可以近似描述了。

    由于這個重要的性質,SVD可以用于PCA降維,來做數據壓縮和去噪。也可以用于推薦算法,將用戶和喜好對應的矩陣做特征分解,進而得到隱含的用戶需求來做推薦。同時也可以用于NLP中的算法,比如潛在語義索引(LSI)。下面我們就對SVD用于PCA降維做一個介紹。

5. SVD用于PCA

主成分分析(PCA)原理總結中,我們講到要用PCA降維,需要找到樣本協方差矩陣XTXXTX的最大的d個特征向量,然后用這最大的d個特征向量張成的矩陣來做低維投影降維。可以看出,在這個過程中需要先求出協方差矩陣XTXXTX,當樣本數多樣本特征數也多的時候,這個計算量是很大的。

注意到我們的SVD也可以得到協方差矩陣XTXXTX最大的d個特征向量張成的矩陣,但是SVD有個好處,有一些SVD的實現算法可以不求先求出協方差矩陣XTXXTX,也能求出我們的右奇異矩陣VV。也就是說,我們的PCA算法可以不用做特征分解,而是做SVD來完成。這個方法在樣本量很大的時候很有效。實際上,scikit-learn的PCA算法的背后真正的實現就是用的SVD,而不是我們我們認為的暴力特征分解。

    另一方面,注意到PCA僅僅使用了我們SVD的右奇異矩陣,沒有使用左奇異矩陣,那么左奇異矩陣有什么用呢?

假設我們的樣本是m×nm×n的矩陣X,如果我們通過SVD找到了矩陣XXTXXT最大的d個特征向量張成的m×dm×d維矩陣U,則我們如果進行如下處理:

X′d×n=UTd×mXm×nXd×n′=Ud×mTXm×n

可以得到一個d×nd×n的矩陣X‘,這個矩陣和我們原來的m×nm×n維樣本矩陣X相比,行數從m減到了k,可見對行數進行了壓縮。也就是說,左奇異矩陣可以用于行數的壓縮。相對的,右奇異矩陣可以用于列數即特征維度的壓縮,也就是我們的PCA降維。

6. SVD小結

    SVD作為一個很基本的算法,在很多機器學習算法中都有它的身影,特別是在現在的大數據時代,由于SVD可以實現并行化,因此更是大展身手。SVD的原理不難,只要有基本的線性代數知識就可以理解,實現也很簡單因此值得仔細的研究。當然,SVD的缺點是分解出的矩陣解釋性往往不強,有點黑盒子的味道,不過這不影響它的使用。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,797評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,179評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,628評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,642評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,444評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,948評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,040評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,185評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,717評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,794評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,418評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,414評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,750評論 2 370

推薦閱讀更多精彩內容