加權基因表達網絡分析(Weighted gene co-expression network analysis, WGCNA),又叫權重基因共表達網絡分析,其根本思想是根據基因表達模式的不同,挖掘出相似表達模式的基因,定義為模塊(module)的一種算法。具有相似表達模式的基因很可能是緊密共調控的,功能緊密相關的或同一條信號通路或過程的成員,有其特定的生理意義。芯片原始數據由R語言預處理后,得到基因表達數據,然后由maSigPro包處理得到整個肝再生過程和肝癌發生發展過程中的差異表達用來構建加權基因共表達網絡。然后根據基因表達的相似性(共表達的基因)把網絡分成幾個模塊,把每個模塊和外部特征(比如時間點,病理進程等)進行關聯,同時和maSigPro結果進行對比,鑒定模塊中的關鍵基因(driver gene或hub gene),進行可視化。
1. 構建加權相關性基因網絡軟閾值的選擇
WGCNA中對基因表達值之間的相關系數取n次冪,這是和普通聚類的最大不同,其直接結果是把基因間相關性的強弱的差異放大。假如某兩對基因之間未取冪之前的相關系數差異為4倍,假如對各自相關系數取4次冪,則這種差異就變為256倍,強弱關系分明。對每兩對基因(i,j)之間的相關系數的冪取某特定的值β,以此來計算所有基因之間的相關性,也就是adjacency矩陣:
ai,j = |cor (i , j) | β
由這些相關性系數,可以構建網絡,其中基因作為網絡中的節點(nodes),而ai,j作為邊的權重,高相關性代表強連接,反之亦然。每個基因的連接性(度)的大小反應了和這個基因相連的基因的多少。WGCNA提供幾種相關性的算法,其中包括Pearson correlation(cor()函數)、Biweight mid-correlation(bicor()函數)、Spearman correlation(cor(x, method=“spearman”)函數)本研究中采用WGCNA默認的Pearson相關,Pearson correlation計算快速,但對離群值敏感。
可以看出,adjacency的結果直接取決于β的取值,其取值的高低直接影響模塊的構建和模塊內基因的劃分。根據接近無尺度網絡(scale-free network)的最低值來確定β值。在隨機網絡中,一般認為每個節點的重要性是一樣的,而實際上,許多領域的許多類型網絡都是無尺度網絡。無尺度網絡對生物的進化有重要意義,因為大部分nodes是連接度小的基因,這樣在某些不利的條件下,只要位于關鍵節點的基因保持其穩定性,那么整個網絡都可以保持很好的“彈性形變”,不會崩潰而導致毀滅性災難。而一旦選擇了合適的構建無尺度網絡的β值,一方面,少數的節點有很多連接(也就是hub基因),另一方面,大多數的點有少的連接度。WGCNA給出了如何選擇這個閾值的方法,其函數是pickSoftThreshold()。
2 加權共表達網絡的構建和模塊識別
一旦選擇好了構建網絡的β值,那么從網絡構建到模塊識別需要四個步驟。
2.1 第一,通過拓撲重疊計算每兩個基因之間的不相似性。
兩個基因之間相似性通過拓撲重疊(TOM)來計算。簡單說,如果基因i,j有很多相同的鄰接基因,那么TOM(i,j)就很高,這意味著基因有相似的表達模式。TOM(i,j)= 0表示基因i和j的網絡沒有共同的鄰接基因,而TOM(i,j)= 1表示,基因i和j有著完全一樣的網絡鄰接基因。TOM作為相似度的度量可以被轉換為相異度,disTOM=1-TOM。
2.2 第二,得到基因聚類樹
根據基因表達之間的相似性,進行等級聚類。然后通過基因間的不相似性轉換,得到基因聚類樹。
2.3第三,通過對樹的剪切把表達一致相基因劃分到相同模塊中。
一般采取動態混合切割算法。
2.4 第四,合并相似模塊
通過模塊特征基因(module eigengenes,ME)合并非常相似的模塊。ME代表了一個模塊所包含的基因的表達數據,可以代表這個模塊進行數學運算,比如可以和其他模塊進行關聯,可以聚類(再次),可以和外部特征關聯。通過ME對模塊進行聚類后,設定一定閾值合并,通常這個閾值設置為0.15~0.25之間。并且,一般只merge一次,但如果仍然有一些模塊非常相似或者想要更大的模塊,也可以再次merge。
得到每個模塊所包含的基因后,可以對每個模塊進行生物功能等分析,也可以對感興趣的模塊篩選hub基因(會另外再寫hub基因篩選等)。但一般會把模塊和外部特征聯系(比如疾病狀態,疾病分期,時間序列的某些重要時間點等),所以下一步要把模塊與外部信息(traits)關聯。
3 基因模塊與外部信息關聯
一旦把基因模塊與外部特征相關的信息關聯在一起,就可以找到對所感興趣的信息相關的模塊和基因。因為前面已經得到了ME,所以可以利用cor(MEs, datTraits)函數計算模塊與外部信息的相關系數,并且可以計算其p值,WGCNA提供了其相關性可視化的函數labeledHeatmap(),結果得到的是每個模塊與外部特征的相關性矩陣。從中可以發現與感興趣的外部特征高度相關的模塊。