CS224W-圖神經網絡 筆記5.2:Spectral Clustering - 譜聚類主要思想及關鍵結論的證明
本文總結之日CS224W Winter 2021只更新到了第四節,所以下文會參考2021年課程的PPT并結合2019年秋季課程進行總結以求內容完整
[toc]
引言
本節除了介紹圖劃分(二分)的基本思路外,主要回答一個問題:為什么能根據圖拉普拉斯矩陣的第二小特征值對應的特征向量對圖進行分割?
1 圖劃分
圖劃分也要回答兩個問題:
- 怎么定義圖的一個好的劃分?(
標準
) - 如何高效得到劃分結果?(
效率
)
1.1 圖劃分標準
先以最簡單的圖對分(bi-partition)為例,(對于多分情況可以在二分的基礎上推廣)。評價指標有:
1. 割集規模(Graph Cuts)
Cut是將被分割的邊的數量最少為圖分割的標準,這一標準存在一定問題
2. 傳導性(Conductance)
傳導性不光追求被分割邊數量最少,還兼顧組內的連接。衡量了組間連通性相對于每個組的組內連通性的程度。是個更好的圖分割標準。
雖然依據conductance可以獲得較為平衡的圖劃分,但是計算conductance 是NP-hard問題。
除了這兩個劃分標準外,還有如在圖像分割領域中用的比較多的Normalized cut(N-cut)等。
2 如何近似求解
要理解譜聚類算法需要掌握三個關鍵結論的證明。
2.1 一個不等式
這是一個關于對稱矩陣瑞利商性質的證明。
瑞利定理(Rayleigh theorem)
相關介紹課參考下面引用文章1
2.2 近似優化方法
回到尋找最優劃分解的問題,1973年 Fiedler 提出將二劃分的集合 A 和 B 的元素標簽限制在 1 和 -1,且限制 2 個集合的元素個數相同(等價于與向量(1, 1, …, 1)垂直)可以實現最優圖分割的目的。
由于無法在求解的過程中嚴格滿足上述條件(約束條件過分嚴格),故對向量取值弱化約束的松弛法(relaxation)
,允許它們取任意實數。根據上面證明的瑞利定理(Rayleigh Theorem)提出最小化 Fiedler 提及的公式,就是求解拉普拉斯矩陣L的第二小的特征值 所對應的特征向量x .x是最優分割向量的近似。可以通過x各維度的值的正負符號來決定相應節點所屬的社區。
ps:為什么不是最小特征值對應的特征向量呢?
因為,圖拉普拉斯矩陣對應的最小特征值為0,其特征向量取值全為1 的向量。
2.3 conductance 有下界
對于最優分割標準 傳導性 conductance 是有下界的。第二小特征值小于等于兩倍的最優傳導,也就是說將為最優conductance的下界。
3 其他定義
- 拉普拉斯矩陣的第二小特征值也叫圖的
代數連通度
. 因為當且僅當網絡連通時,非零。如果網絡不連通,此時,通常分別將網絡的連通分支拿出來,分別應用算法。
- 拉普拉斯矩陣的最大特征值也叫圖的
譜半徑
.
總結
至此,算是介紹完對于圖分割的思想以及關鍵結論的介紹。解釋了為什么能根據圖拉普拉斯矩陣的第二小特征值對應的特征向量對圖進行分割。下面就是具體的分割算法,以及如何將二分推廣到多分情況。敬請期待!
參考文章
- https://blog.csdn.net/klcola/article/details/104800804
- 圖網絡機器學習 | 社區發現 — 譜聚類算法
- 斯坦福CS224W 圖與機器學習5】Spectral Clustering
- 譜聚類方法推導和對拉普拉斯矩陣的理解
- https://linalg.apachecn.org/#/docs/chapter21
- https://www.cnblogs.com/xingshansi/p/6702188.html?utm_source=itdadao&utm_medium=referral
- http://www.cs.yale.edu/homes/spielman/sgta/SpectTut.pdf
- http://www.math.ucsd.edu/~fan/wp/cheeger.pdf