奇異值分解(SVD)

最近兩天都在看奇異值分解及其在推薦系統和圖像壓縮方面的應用,這部分知識比較散也比較難理解,看代碼不是很好懂,所以通過編學邊整理的方式幫助大腦理解這部分知識。


SVD思維導圖

奇異值分解是什么

奇異值分解(Singular Value Decomposition,SVD),是一種提取信息的方法。比如有一份記錄用戶關于餐館觀點的數據,要對其進行處理分析,提取背后的因素,這個因素可能是餐館的類別,烹飪配料等,然后利用這些因素估計人們對沒有去過的餐館的看法,從而進行推薦,提取這些信息的方法就叫奇異值分解法。

奇異值分解的作用是什么

奇異值分解能夠簡約數據,去除噪聲和冗余數據。其實它說白了也是一種降維方法,將數據映射到低維空間。看到這里其實就會想,它和主成分分析(PCA)有什么聯系或者差異呢?奇異值分解和主成分分析一樣,也是告訴我們數據中重要特征,奇異值是數據矩陣乘以該矩陣的轉置的特征值的平方根(Data*Data^T特征值的平方根)。

奇異值分解的數學原理

前面說的關于奇異值分解是什么,其實是從應用角度上來說的,從數學的角度講,它就是一種矩陣分解法。

什么是矩陣分解

顧名思義,矩陣分解就是把一個大矩陣分解成易于處理的形式,這種形式可能是兩個或多個矩陣的乘積,就如同我們在代數中的因子分解,這種因子分解在數學里便于我們計算,賦予現實的含義,給一個真實的應用背景,就能方便我們解決生活中遇到的問題。

SDV是如何分解矩陣的

SVD分解矩陣圖

SVD將原始的數據集矩陣Data分解成三個矩陣:U、Sigma、VT,如果原始矩陣是m行n列,那么U、Sigma和VT分別就是m行m列、m行n列、n行n列。比較值得一提的是矩陣Sigma,該矩陣只有對角元素,其他元素均為0,有一個慣例是:Sigma的對角元素是從大到小排列的。這些對角元素就稱為奇異值。在科學和工程中,一直存在一個普遍事實:在某個奇異值的數目r之后,其他的奇異值均置0,也就是我們僅保留r個重要特征,其余特征都是噪聲或者冗余特征。那么問題來了,這個r到底是多少勒?如何選取呢?確定要保留的奇異值個數有很多啟發式的策略,其中一個典型的做法就是保留矩陣90%的能量信息。為了計算能量信息,將所有的奇異值求平均和,直到累加到總值的90%為止。另一個啟發式策略是當矩陣有上萬個奇異值時,保留前面的2000個或3000個。其實這兩種方法要想為什么的話可能就涉及到繁雜的數學證明了,每一個為什么的地方都有可能有創新點,留著有靈感的時候深入思考吧。

一個用例理解SVD

比如給了一些用戶和菜系,如下面的矩陣,這個矩陣的值代表了用戶對吃過的菜系的評分,沒吃過的評分為0,要給這些用戶推薦幾個他沒吃過的菜系。


用戶和菜系

拿到這個問題,最直觀的一個思路流程就是:計算菜系的相似度->結合評分->對沒吃過的菜系計算預測評分->預測評分排序->推薦前x個菜。
這也是簡單版本的推薦系統的程序流程,計算相似度有歐式距離、皮爾遜相關系數和余弦相似度等常用計算方法。SVD做的改進就是將矩陣分解,從數據中構建出一個主題空間,再在該主題空間下計算相似度,提高了推薦效果(但是SVD會降低程序的速度,尤其是大規模數據集中,這一點以后再談)。
在上例中,對數據矩陣進行SVD處理,會得到兩個奇異值。因此,有兩個概念或主題與此數據集相關聯,比如我們基于每個組的共同特征來命名,可能是美式BBQ和日式食品這二維(這兩個維度是我們通過分析數據得到的,在生活中,我們一看那些菜就發現菜是有類型的,我們按照類型定相似度,進行推薦,奇異值是我生活的經驗映射在數學空間的一種體現,來自于數學角度的解釋,是巧合也是必然),如何將原始數據變換到這二維呢?V^T矩陣會將用戶映射到BBQ/日式食品空間,U矩陣會將菜系映射到BBQ/日式食品空間,在這個空間下求的相似度,然后進行后續流程,實現推薦。詳細的推薦系統實現會在下一篇中介紹。

在Python中如何使用SVD

Numpy線性代數庫中有一個實現SVD的方法,可以直接拿來用。具體SVD是如何用程序實現的我打算專門寫一篇程序實現的介紹,也包括比如特征值到底怎么求的等等方法。這里就簡介調用方式。

import numpy as np
def load_data():
    return [[0,0,0,2,2],
                [0,0,0,3,3],
                [0,0,0,1,1],
                [1,1,1,0,0],
                [2,2,2,0,0],
                [5,5,5,0,0],
                [1,1,1,0,0]]
data = load_data()
u, sigma, vt = np.linalg.svd(data)
print(sigma)

運行結果如下:

[  9.64365076e+00   5.29150262e+00   8.36478329e-16   6.91811207e-17
   3.04963694e-34]

可以發現前兩個值比后三個值大的多,所以可以取這兩個奇異值,把其余三個置0。對于Sigma矩陣為什么長成行向量的樣子,是Python內部的機制,為了節省空間,因為它除了對角線都是0,記著Sigma是個矩陣就好。

具體的推薦系統和詳細代碼解析我會在下一篇中介紹,還在理解和實驗當中。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,030評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,310評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,951評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,796評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,566評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,055評論 1 322
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,142評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,303評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,799評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,683評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,899評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,409評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,135評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,520評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,757評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,528評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,844評論 2 372

推薦閱讀更多精彩內容