寫在前面
很多時候,我們會得到一個基因集合:
- 通過GWAS定位到幾個區間,每個區間有一堆基因,合并起來是一個集合;
- 通過RNAseq轉錄組數據分析,差異表達基因,有一個集合;
- 通過 WGCNA 共表達網絡構建,會有一個個的基因集合......
當然,還有很多很多基因集合,針對這些基因結合,目前常見的是兩個分析:
- 直接基于蛋白相似度,使用 Stringdb 映射蛋白互作網絡,這個在 TBtools 主程序的 PPI Predict 功能可以快速實現;
- 做基因集功能富集分析,這塊無需解釋,TBtools 主程序以及幾個優秀的插件都能處理。
然而,還有一個分析我們經常提到,卻很少人去折騰一個易于使用的工具,進而導致相關分析其實很少人知道怎么做,甚至都沒發現這個分析的存在意義。而這個分析就是:
- 確認基因集合中的轉錄因子,TF
- 基于轉錄因子的 Binding Motif 檢索基因集合啟動子區域是否存在 Binding Sites
邏輯上,我們可以通過這類相互調控關系,構建一個初步的基因間轉錄調控網絡,結合差異表達或者共表達網絡分析,或許能讓我們得到更多信息。 至于操作,使用 TBtools 分析來做則確實簡單。
安裝插件
為了完成上述分析,我寫了兩個插件。可以直接從插件商店下載。
直接安裝即可。
Plant TF Binding Motif Shift
我們手上只有一個物種的所有蛋白序列(每個基因一個代表性轉錄本對應的蛋白序列),首先第一件事是確定哪些基因是TF,同時能初步獲得這些 TF 的 Binding Motifs。實現邏輯上,使用 TBtools 之前的 Best ID Convert 功能,映射擬南芥的 TF ,最后提取擬南芥對應 TF 的 Binding Motifs (從 PlantTFdb 或 JASPAR 數據庫獲取)就可以了。這個操作,邏輯上比直接MYB就找MYB,NAC就找NAC來得靠譜一些,畢竟“直系”同源或者“同個分支”的TF Binding Motifs 的保守性更高一點點。
使用簡單,打開插件
隨后只要做兩個設置:
- 給一個感興趣的蛋白序列集合,最好是目標物種的所有蛋白序列
- 設置一個輸出文件
運行完后才能后,可以看到輸出文件。注意,如果是整個物種的所有蛋白序列,可能要過夜培養
Fimo Binding Site Scan
當我拿到了 Motifs 文件(其實是頻次矩陣,這個文件可以通過上述獲取,也可以自行到 JASPAR 等數據庫下載云云),就可以直接掃描核酸序列了,比如目標物種的所有基因的 Promoter 序列,或者某個基因集合(如共表達模塊基因)的 Promoter 序列。
至于操作,參考界面提示即可。
- 給定一個 Motifs 信息文件,如上述獲得
- 給定一個啟動子序列信息
- 設置一個輸出目錄
運行完成后,可以看到
邏輯上,這些文件的信息是等價的,其中 fimo.html 和 fimo.tsv 可能最多人感興趣。此處直接看 fimo.html
類似的,如果需要基因調控網絡,簡單整理 tsv 文件即可。
當然,我個人是認為,干脆就做一次去物種所有蛋白的掃描,結果保留好了。后續需要啥即用 TBtools 的 Text Row Manipulate 提取就好了。
寫在最后
直接用 TSV 就可以進行 Cytoscape 可視化了。