輪狀病毒進化分析-Rotavirus

步驟一:數據清洗

將ID重復的進行篩除,經過初步計算進化速率為0.9E-3,將同年序列差異<=3的進行隨機篩選,保留一個。最后得到147條VP7序列。我為啥做這一步,我在N多文獻里就看到個MERS的做了一點這個。其實我想想也可以不做,計算資源夠也沒關系吧。

步驟二:了解一些基礎知識

進化模型:

基于距離有:

? UPGMA(類平均法)

? ME(Minimum Evolution,最小進化法)

? NJ(Neighbor-Joining,鄰接法)

基于特征有:

? MP(Maximum parsimony,最大簡約法,認為進化歷程中發生堿基替代次數最少的系統發育樹為最優樹)

? ML(Maximum likelihood,最大似然法,基于堿基替代模型,認為似然值最大的系統發育樹為最優樹)

? Bayesian Inference (BI,貝葉斯方法,在馬爾可夫鏈(Monte Carlo MarkoChain, MCMC)中取樣,選取出現頻率最高的系統發育樹為最優樹;BI法通過后驗概率(posterior probability, PP)來評估拓撲結構的可靠性,一般PP > 95%的分支可信度較高)

而ML、BI對堿基/氨基酸替代模型敏感,需要對堿基替代模型做評估。通過modelfinder(iqtree內置)、jModeltest2測試,通過似然率(LRT)檢驗、BIC、AIC、DT指標篩選模型。最終選擇GTR+I+G4。

其實各個模型的差異也就那么幾個地方:堿基替代頻率是否相等、堿基出現的概率是否相等、transition rate (alpha) 、transversion rate (beta)、(PAUP* rate classification)等。有文獻表明,模型選擇這一步可以不做,直接上GTR+G+I,或者其他模型,最后得出的差異很小的 [Model selection may not be a mandatory step for phylogeny reconstruction]。我可太謝謝這個文章了,因為前期在模型選擇上費了好多時間,整理模型之間的差異。所以最后直接選擇GTR+I+G和HKY+I+G。因為看到很多文獻也蠻喜歡用這2個的,還有用JC的。但沒有太多文獻具體說明為啥選擇這個模型,最多就是說經過jmodeltest篩出BIC最小的。

步驟三:配置文件

BEAST是用的比較多的一個軟件,先要配置好xml文件,其實就是模型標記文件(我記得python的pickle包存模型也是這個格式,于是我測試下是否pickle也識別,哈哈哈,當然不能啦!笨笨笨!)。BEAST是一個軟件集,先用BEAUTi進行配置。將比對好的fa文件拖入:

Tips選項,可以把時間自動識別。因為我的ID最末是時間,根據自己的格式處理:

BEATUi tips

Sites選項:這個其實就是位點的意思,每一個堿基/氨基酸:替代模型我這選擇的GTR,base freq選擇est、G4、codon那選擇的(1+2),3? 。因為密碼子的第三個堿基相對前2個變化要大。可以設置為off、1,2,3看看xml文件里是怎么描述模型的:


codon1 2 3的變異速率不一致
BEAUTi Site
off
(1+2),3
1,2,3[比前者多一個3到3]


Trees選項:種群增長模型,我選擇的貝葉斯天際線BS????

clocks 選項:看你想用什么分子鐘,我選擇的嚴格分子鐘。如何判斷自己的數據適合寬松的分子鐘還是嚴格的分子鐘?(此處復制From高芳鑾教授QQ空間日志教程)

方法一:可以先用uncorrelated relaxed lognormal clock配合默認參數配置個xml文件,MCMC鏈長不需要很大,運行結束后,將xx.log文件通過Tracer導入查看coefficientOfVariation(或ucld.stdev值,如果該值接近0,說明數據適合嚴格分子鐘,反之說明數據適合寬松分子鐘。

方法二:通過貝葉斯因子法(Bayes Factor, BF)來比較分子鐘模型和樹先驗(tree prior)模型之間的組合的邊際似然值(Marginal Likelihood),通過BF法分析后,哪個模型對應的LnL值越大,相對更優,此方法既可以確定分子鐘模型,也可以用于確定哪種樹先驗模型更加適合自己的數據。具體也可以通過以下操作來確定:在Tracer 中同時導入兩個模型的xx.log 文件,選中所有要比較的模型后,依次點擊菜單Analysis--->Model Comparation,Analysistype改為Harmonic mean,Reps=100,最后根據獲得的BF值(BF=Pr(D|M1)/Pr(D|M2)至少大于3,則說明M1>M2)范圍判斷模型間的優劣程度。

?方法三(更新):?同樣是采用比較分子鐘模型和樹先驗(tree prior)模型之間的組合的邊際似然值(Marginal Likelihood),但是不使用BF法,而是采用path sampling(路徑采樣)分析,相比BF法,path sampling更加精準。(參考文獻:Improving the accuracy of demographic and molecular clock model comparison while accommodating phylogenetic uncertainty)。

priors 選項:我理解的就是對模型初始的分布函數進行設置,比如函數形狀、mean、sd等。主要是對你前面進行設置的做模型先驗函數預估。

MCMC選項:length of chain ,看資料說是不小于1000*序列數**2。我是147條,我直接設置的200000000,跑了我一天,ESS全部>200,開森!因為前面有設置小一點,有group的ESS<200。所以遇到有的參數不收斂的時候,可以嘗試把chain長度設置大一點!另外的參數自己看字面也能理解,不多說。

MCMC

r然后生成xml文件。再丟到服務器上,跑beast。

one thousand years later......

得到了以下4個文件:待tree是樹文件啦,自己找個軟件/包去美化下,工具很多,在線的也有:

beast結果

把log文件拖到tracer里看看:可以看到進化速率mean值是1.0021E-3/site/year。跟我看的文獻里的差不多。

當然,除了BEAST還有iqtree、MEGA都可以做。文獻里基本是這幾個。iqtree采用極大似然法構建進化樹,很快,但我為了準確,-b 1000,然后從昨天跑到我現在寫這個文章還沒跑完。有manual,可以看看,反正我的命令是:/project/baowenjuan/APP/iqtree/iqtree-1.6.12-Linux/bin/iqtree -s merged_seq_y.mafft.fa -pre iqtree_K3PuFG4_RV -b 1000 -nt AUTO -m K3Pu+F+G4 (這里的模型是iqtree前期評估的最優模型)

jModelTest對模型評估以及構建進化樹,自行看manual,都不難。我的命令是:java -jar /project/baowenjuan/APP/jmodeltest-2.1.10/jModelTest.jar -d merged_seq_ymafft.nex -f -g 4 -AIC -AICc -BIC -DT -i -s 11 -a -w -p >jModelTest.o

結果里有它自己根據BIC值選擇的模型構建的進化樹。

一個禮拜,從0走到現在,一套流程走完啦。具體發現了什么,就需要后續的分析啦!

PS. 今年流年不利,幾個項目被砍。腫瘤玩厭了,又搞早篩,現在又“被迫”琢磨了病毒進化。所以接下來我要玩啥呢?逼著我變全能嗎?我不想啊,我想專一一點,我想往大數據、建模方向發展呢!加油!

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,818評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,185評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,656評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,647評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,446評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,951評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,041評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,189評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,718評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,800評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,419評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,420評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,755評論 2 371

推薦閱讀更多精彩內容