零基礎(chǔ)教程 | 我有一堆基因,如何預(yù)測TF-Gene調(diào)控網(wǎng)絡(luò)?

寫在前面

早晨起來,想起來很久很久以前,有一個用戶提出的優(yōu)化想法,覺得確實也合理,就更新了一下。順便也把相關(guān)插件使用詳細(xì)捋捋,方便大伙搞清楚這些插件都拿來干啥。
早前,順手寫了兩個插件:

  1. Plant TF Motifs Shift:用于將擬南芥的 TF Binding Pattern 轉(zhuǎn)移到目標(biāo)物種蛋白上
  2. Fimo Search: 基于輸入的 Motifs 對目標(biāo)區(qū)域進行掃描

那么可以做什么?簡單來說,如果我得到一堆差異表達基因,我想知道其中哪些 TF 可能結(jié)合到另外一些基因的啟動子區(qū)域;或者我有一個WGCNA分析得到的基因共表達網(wǎng)絡(luò),在這種情況下,如果有轉(zhuǎn)錄因子成員結(jié)合到另外成員的啟動子區(qū)域,那么我們就有更大的把握他們存在調(diào)控和被調(diào)控關(guān)系的可能性不會太低。剩下的當(dāng)然就是實驗驗證。為了完成這個分析,我們需要的步驟是:

  1. 拿到目標(biāo)基因列表,這個大伙自然都有,甚至GWAS出來的一堆基因,當(dāng)然差異表達基因集合或者共表達基因模塊更常見;
  2. 拿到目標(biāo)區(qū)域,一般是基因集合內(nèi)成員的啟動子區(qū)域,大概是ATG上游1000~2000bp,可以自定義
  3. 使用 Plant TF Motifs Shift 插件,以擬南芥為參考,獲得可能得轉(zhuǎn)錄因子成員的Binding Motifs
  4. 使用 Fimo Search 插件,以得到的 Binding Motifs 對目標(biāo)區(qū)域(如啟動子區(qū)間)進行掃描,即可得到結(jié)果(事實上你要對整個基因組掃描,也不是不行)

下述逐步演示操作。為了完成這些操作,我們給出一個實例:

  1. 目標(biāo)基因列表,一個蘋果的基因共表達網(wǎng)絡(luò)模塊
  2. 蘋果的基因組序列,注意是基因組,不是基因(為了提取啟動子區(qū)域)
  3. 蘋果的基因結(jié)構(gòu)注釋信息文件,GFF3/GTF格式(為了提取啟動子區(qū)域)
  4. 蘋果的蛋白序列全集(這個其實也可以基于 2 和 3 來準(zhǔn)備)
  5. TBtools

TBtools安裝

Emmm.... 這個自己想辦法。

插件安裝

兩個功能都是 TBtools 的插件,可以直接從插件商店安裝。



具體就是打開 TBtools,打開插件商店,然后選中插件,Install 就可以了

Binding Motifs 獲取

打開 Plant TF Binding Motif Shift 插件,設(shè)置蘋果的蛋白序列全集,設(shè)置輸出文件路徑前綴,點擊 Start 即可



等待即可(由于是幾萬個蛋白序列比對到幾萬個蛋白序列,如果是一般筆記本,BLAST的話,可能需要跑一整個晚上,但這個是值得的,因為一個物種一般就跑一次就好了。BLAST到底還是會比DIAMOND這類準(zhǔn)確一些,在小細(xì)節(jié)上;當(dāng)然后面確實有時間時,我會考慮支持 DIAMOND 對BLAST的替換)
完成后即可看到一系列數(shù)據(jù),但其實只有兩個是比較有用的。



輸出中的兩個文件,不帶greedy的是非常可靠的 binding motifs,帶 greedy 的是盡可能匹配的。
在不帶greedy的 motifs 文件中,我們可以看到下述

代表映射質(zhì)量分級,如果是 Excellent 那么結(jié)果都還是可以的。其他的有 Good Average Fine Poor 等。這些分級取決于物種蛋白和擬南芥蛋白序列庫的互惠BLAST效果。如果正好蘋果對應(yīng)的 Excellent 的擬南芥蛋白沒有 binding motifs 信息,那么就沒有顯示出來菠蘿映射出來的 binding motifs。這個會比較奇怪,因為可能下一層級可以映射出來有 binding motifs。
于是參考用戶的要求,我做了一點優(yōu)化,輸出 greedy.motifs 信息,盡可能對蘋果每一個蛋白都加上一個映射的ID,確保他可以映射到有motifs的。文件效果如下



如此,我們就得到所有蘋果的 TF binding motifs。
隨后,我們可以直接得到目標(biāo)基因集合的 TF binding motifs

使用 TBtools 的 Text Block Extract 功能就可以了。

獲得目標(biāo)基因集合的啟動子區(qū)域序列

具體完全可以參考前述我寫過的 GFF3 序列提取教程,在B站我也有放了一個專門的視頻教程。大體如下,先提取所有轉(zhuǎn)錄本的啟動子序列,然后再提取目標(biāo)基因集合的啟動子區(qū)域序列。



隨后,提取目標(biāo)基因集合的啟動子區(qū)域序列


使用 Fimo 構(gòu)建基因調(diào)控網(wǎng)絡(luò)

使用上述文件,一切搞定



運行后很快就可以看到結(jié)果




可以看到 Alt ID 對應(yīng)的似乎 TF,Sequence Name 對應(yīng)的是啟動子上有對應(yīng) TF binding motifs 的基因。

如此,我們就得到了大規(guī)模的基因調(diào)控關(guān)系文本預(yù)測結(jié)果。事實上,如果你再結(jié)合共表達,結(jié)果真的沒話說。
PS:如果你用的是 greedy.motifs 文件,操作完全相同。

可視化你的網(wǎng)絡(luò)

當(dāng)然,可視化的話,可以直接用 cytoscape 就可以了。
先在 Excel 之類的程序做一下格式化,去掉或者增加一個 Flag,是的 Alt ID 的格式 和 Suquence Name 的格式一致,方便分析相互調(diào)控關(guān)系



我用 Excel 打開 fimo.tsv 并格式化為如下:



隨后打開 cytoscpe 可視化

風(fēng)格化,NetworkAnalysis,簡單優(yōu)化,Outdegree得到如下

可以看到,雖然我們有很多幾百個基因的模塊,但從 TF Binding Motifs 分析來看,只有少數(shù)可能是非常關(guān)鍵的 hub genes。
我們可以過濾一下質(zhì)量。


寫在最后

到底,數(shù)據(jù)就數(shù)據(jù),做做處理,或許就是有用的信息。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,250評論 6 530
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 97,923評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,041評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,475評論 1 308
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,253評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,801評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,882評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,023評論 0 285
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,530評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,494評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,639評論 1 366
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,177評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 43,890評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,289評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,552評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,242評論 3 389
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,626評論 2 370

推薦閱讀更多精彩內(nèi)容