一、前言
好久沒更新過文章啦,今天我們來聊一聊怎么找hubgene。
二、常見的尋找hubgene方法
我們如果要研究一個疾病,通常會做一個疾病的正常和非常基因差異表達分析,而得到的這些差異基因,怎么往下縮小范圍往往是一個比較頭疼的問題。如果你經常閱讀文獻或者對生信分析了解過一段時間,就會知道我們一般會從兩個方向去看
①GO和KEGG富集尋找感興趣的通路
②利用Cytocape及STRING數據庫進行PPI蛋白互作,尋找Degree最高的TOP10,或者根據插件ClusterONE等分模塊研究、基于cytohubba的各種算法進行關鍵基因提取。但是萬變不離其中:從蛋白質的功能信息出發,查找與其功能相似或相關的蛋白質,并對這些蛋白質間的關聯程度進比較、量化。
第一種的問題在于通路中包含的基因太多了,這時候我可能無法進行展開研究。而且純人工挑選感興趣的通路,讓我感到生理上的不適。
這個是我研究的某個疾病,利用差異基因(P<0.05,logFC>2)繪制的PPI,我們感覺到基因像是富集了兩個模塊,但利用clusterONE分出來的只有畫紅圈的這一部分,下方不聚類或不全聚類。這就比較麻煩了,其實每個人對一個疾病進行研究,基本上都有一些研究思路,比如說我標顏色的這些基因才是我想研究的關鍵基因,如果根據Degree(其他數學模型算法都一樣,Degree比重是最高的)也不會挑出我想要的基因。問題來了,怎么解決?
三、GOSemSim包
出自https://www.sciencedirect.com/science/article/pii/S1874391912007567
怎么判斷哪些是hubgene?
第1個線索是基因的差異改變的程度比較大,但差異改變程度大并不一定代表重要。
第2個線索就是該基因的產物與通路上的其它基因產物都有互作的話。簡而言之,該基因編碼蛋白的“朋友”比較多的話,那么該基因就可能比較重要。
簡單的說,如果兩個基因產物的功能相似,那么他們在GO中注釋的術語(term),在GOtree中所處的位置就比較相近,反映在語義相似度上,就是他們的語義相似度比較。所以這是一個利用GO分析進行通路間關系強度打分的包,最后做成了這個樣子。這是我挑選的前十個基因,做成云雨圖。至于GOSemSim怎么使用,大家可以自由探索了解。