最近兩天都在看奇異值分解及其在推薦系統和圖像壓縮方面的應用,這部分知識比較散也比較難理解,看代碼不是很好懂,所以通過編學邊整理的方式幫助大腦理解這部分知識。
奇異值分解是什么
奇異值分解(Singular Value Decomposition,SVD),是一種提取信息的方法。比如有一份記錄用戶關于餐館觀點的數據,要對其進行處理分析,提取背后的因素,這個因素可能是餐館的類別,烹飪配料等,然后利用這些因素估計人們對沒有去過的餐館的看法,從而進行推薦,提取這些信息的方法就叫奇異值分解法。
奇異值分解的作用是什么
奇異值分解能夠簡約數據,去除噪聲和冗余數據。其實它說白了也是一種降維方法,將數據映射到低維空間。看到這里其實就會想,它和主成分分析(PCA)有什么聯系或者差異呢?奇異值分解和主成分分析一樣,也是告訴我們數據中重要特征,奇異值是數據矩陣乘以該矩陣的轉置的特征值的平方根(Data*Data^T特征值的平方根)。
奇異值分解的數學原理
前面說的關于奇異值分解是什么,其實是從應用角度上來說的,從數學的角度講,它就是一種矩陣分解法。
什么是矩陣分解
顧名思義,矩陣分解就是把一個大矩陣分解成易于處理的形式,這種形式可能是兩個或多個矩陣的乘積,就如同我們在代數中的因子分解,這種因子分解在數學里便于我們計算,賦予現實的含義,給一個真實的應用背景,就能方便我們解決生活中遇到的問題。
SDV是如何分解矩陣的
SVD將原始的數據集矩陣Data分解成三個矩陣:U、Sigma、VT,如果原始矩陣是m行n列,那么U、Sigma和VT分別就是m行m列、m行n列、n行n列。比較值得一提的是矩陣Sigma,該矩陣只有對角元素,其他元素均為0,有一個慣例是:Sigma的對角元素是從大到小排列的。這些對角元素就稱為奇異值。在科學和工程中,一直存在一個普遍事實:在某個奇異值的數目r之后,其他的奇異值均置0,也就是我們僅保留r個重要特征,其余特征都是噪聲或者冗余特征。那么問題來了,這個r到底是多少勒?如何選取呢?確定要保留的奇異值個數有很多啟發式的策略,其中一個典型的做法就是保留矩陣90%的能量信息。為了計算能量信息,將所有的奇異值求平均和,直到累加到總值的90%為止。另一個啟發式策略是當矩陣有上萬個奇異值時,保留前面的2000個或3000個。其實這兩種方法要想為什么的話可能就涉及到繁雜的數學證明了,每一個為什么的地方都有可能有創新點,留著有靈感的時候深入思考吧。
一個用例理解SVD
比如給了一些用戶和菜系,如下面的矩陣,這個矩陣的值代表了用戶對吃過的菜系的評分,沒吃過的評分為0,要給這些用戶推薦幾個他沒吃過的菜系。
拿到這個問題,最直觀的一個思路流程就是:計算菜系的相似度->結合評分->對沒吃過的菜系計算預測評分->預測評分排序->推薦前x個菜。
這也是簡單版本的推薦系統的程序流程,計算相似度有歐式距離、皮爾遜相關系數和余弦相似度等常用計算方法。SVD做的改進就是將矩陣分解,從數據中構建出一個主題空間,再在該主題空間下計算相似度,提高了推薦效果(但是SVD會降低程序的速度,尤其是大規模數據集中,這一點以后再談)。
在上例中,對數據矩陣進行SVD處理,會得到兩個奇異值。因此,有兩個概念或主題與此數據集相關聯,比如我們基于每個組的共同特征來命名,可能是美式BBQ和日式食品這二維(這兩個維度是我們通過分析數據得到的,在生活中,我們一看那些菜就發現菜是有類型的,我們按照類型定相似度,進行推薦,奇異值是我生活的經驗映射在數學空間的一種體現,來自于數學角度的解釋,是巧合也是必然),如何將原始數據變換到這二維呢?V^T矩陣會將用戶映射到BBQ/日式食品空間,U矩陣會將菜系映射到BBQ/日式食品空間,在這個空間下求的相似度,然后進行后續流程,實現推薦。詳細的推薦系統實現會在下一篇中介紹。
在Python中如何使用SVD
Numpy線性代數庫中有一個實現SVD的方法,可以直接拿來用。具體SVD是如何用程序實現的我打算專門寫一篇程序實現的介紹,也包括比如特征值到底怎么求的等等方法。這里就簡介調用方式。
import numpy as np
def load_data():
return [[0,0,0,2,2],
[0,0,0,3,3],
[0,0,0,1,1],
[1,1,1,0,0],
[2,2,2,0,0],
[5,5,5,0,0],
[1,1,1,0,0]]
data = load_data()
u, sigma, vt = np.linalg.svd(data)
print(sigma)
運行結果如下:
[ 9.64365076e+00 5.29150262e+00 8.36478329e-16 6.91811207e-17
3.04963694e-34]
可以發現前兩個值比后三個值大的多,所以可以取這兩個奇異值,把其余三個置0。對于Sigma矩陣為什么長成行向量的樣子,是Python內部的機制,為了節省空間,因為它除了對角線都是0,記著Sigma是個矩陣就好。
具體的推薦系統和詳細代碼解析我會在下一篇中介紹,還在理解和實驗當中。