輪狀病毒進化分析-Rotavirus

步驟一：數據清洗

將ID重復的進行篩除，經過初步計算進化速率為0.9E-3，將同年序列差異<=3的進行隨機篩選，保留一個。最后得到147條VP7序列。我為啥做這一步，我在N多文獻里就看到個MERS的做了一點這個。其實我想想也可以不做，計算資源夠也沒關系吧。

步驟二：了解一些基礎知識

進化模型：

基于距離有：

? UPGMA（類平均法）

? ME（Minimum Evolution，最小進化法）

? NJ（Neighbor-Joining，鄰接法）

基于特征有：

? MP（Maximum parsimony，最大簡約法，認為進化歷程中發生堿基替代次數最少的系統發育樹為最優樹）

? ML（Maximum likelihood，最大似然法，基于堿基替代模型，認為似然值最大的系統發育樹為最優樹）

? Bayesian Inference (BI，貝葉斯方法，在馬爾可夫鏈(Monte Carlo MarkoChain, MCMC)中取樣，選取出現頻率最高的系統發育樹為最優樹；BI法通過后驗概率(posterior probability, PP)來評估拓撲結構的可靠性，一般PP > 95%的分支可信度較高）

而ML、BI對堿基/氨基酸替代模型敏感，需要對堿基替代模型做評估。通過modelfinder（iqtree內置）、jModeltest2測試，通過似然率（LRT）檢驗、BIC、AIC、DT指標篩選模型。最終選擇GTR+I+G4。

其實各個模型的差異也就那么幾個地方：堿基替代頻率是否相等、堿基出現的概率是否相等、transition rate (alpha) 、transversion rate (beta)、(PAUP* rate classification）等。有文獻表明，模型選擇這一步可以不做，直接上GTR+G+I，或者其他模型，最后得出的差異很小的 [Model selection may not be a mandatory step for phylogeny reconstruction]。我可太謝謝這個文章了，因為前期在模型選擇上費了好多時間，整理模型之間的差異。所以最后直接選擇GTR+I+G和HKY+I+G。因為看到很多文獻也蠻喜歡用這2個的，還有用JC的。但沒有太多文獻具體說明為啥選擇這個模型，最多就是說經過jmodeltest篩出BIC最小的。

步驟三：配置文件

BEAST是用的比較多的一個軟件，先要配置好xml文件，其實就是模型標記文件（我記得python的pickle包存模型也是這個格式，于是我測試下是否pickle也識別，哈哈哈，當然不能啦！笨笨笨！）。BEAST是一個軟件集，先用BEAUTi進行配置。將比對好的fa文件拖入：

Tips選項，可以把時間自動識別。因為我的ID最末是時間，根據自己的格式處理：

BEATUi tips

Sites選項：這個其實就是位點的意思，每一個堿基/氨基酸：替代模型我這選擇的GTR，base freq選擇est、G4、codon那選擇的(1+2),3? 。因為密碼子的第三個堿基相對前2個變化要大。可以設置為off、1,2,3看看xml文件里是怎么描述模型的：

codon1 2 3的變異速率不一致

BEAUTi Site

off

（1+2），3

1，2，3[比前者多一個3到3]

Trees選項：種群增長模型，我選擇的貝葉斯天際線BS????

clocks 選項：看你想用什么分子鐘，我選擇的嚴格分子鐘。如何判斷自己的數據適合寬松的分子鐘還是嚴格的分子鐘？（此處復制From高芳鑾教授QQ空間日志教程）

方法一：可以先用uncorrelated relaxed lognormal clock配合默認參數配置個xml文件，MCMC鏈長不需要很大，運行結束后，將xx.log文件通過Tracer導入查看coefficientOfVariation（或ucld.stdev）值，如果該值接近0，說明數據適合嚴格分子鐘，反之說明數據適合寬松分子鐘。

方法二：通過貝葉斯因子法（Bayes Factor, BF）來比較分子鐘模型和樹先驗（tree prior）模型之間的組合的邊際似然值(Marginal Likelihood)，通過BF法分析后，哪個模型對應的LnL值越大，相對更優,此方法既可以確定分子鐘模型，也可以用于確定哪種樹先驗模型更加適合自己的數據。具體也可以通過以下操作來確定：在Tracer 中同時導入兩個模型的xx.log 文件，選中所有要比較的模型后，依次點擊菜單Analysis--->Model Comparation，Analysistype改為Harmonic mean，Reps=100，最后根據獲得的BF值（BF=Pr(D|M1)/Pr(D|M2)至少大于3，則說明M1>M2）范圍判斷模型間的優劣程度。

?方法三（更新）:?同樣是采用比較分子鐘模型和樹先驗（tree prior）模型之間的組合的邊際似然值(Marginal Likelihood)，但是不使用BF法，而是采用path sampling（路徑采樣）分析，相比BF法，path sampling更加精準。（參考文獻：Improving the accuracy of demographic and molecular clock model comparison while accommodating phylogenetic uncertainty)。

priors 選項：我理解的就是對模型初始的分布函數進行設置，比如函數形狀、mean、sd等。主要是對你前面進行設置的做模型先驗函數預估。

MCMC選項：length of chain ，看資料說是不小于1000*序列數**2。我是147條，我直接設置的200000000，跑了我一天，ESS全部>200，開森！因為前面有設置小一點，有group的ESS<200。所以遇到有的參數不收斂的時候，可以嘗試把chain長度設置大一點！另外的參數自己看字面也能理解，不多說。

MCMC

r然后生成xml文件。再丟到服務器上，跑beast。

one thousand years later......

得到了以下4個文件：待tree是樹文件啦，自己找個軟件/包去美化下，工具很多，在線的也有：

beast結果

把log文件拖到tracer里看看：可以看到進化速率mean值是1.0021E-3/site/year。跟我看的文獻里的差不多。

當然，除了BEAST還有iqtree、MEGA都可以做。文獻里基本是這幾個。iqtree采用極大似然法構建進化樹，很快，但我為了準確，-b 1000，然后從昨天跑到我現在寫這個文章還沒跑完。有manual，可以看看，反正我的命令是：/project/baowenjuan/APP/iqtree/iqtree-1.6.12-Linux/bin/iqtree -s merged_seq_y.mafft.fa -pre iqtree_K3PuFG4_RV -b 1000 -nt AUTO -m K3Pu+F+G4 （這里的模型是iqtree前期評估的最優模型）

jModelTest對模型評估以及構建進化樹，自行看manual，都不難。我的命令是：java -jar /project/baowenjuan/APP/jmodeltest-2.1.10/jModelTest.jar -d merged_seq_ymafft.nex -f -g 4 -AIC -AICc -BIC -DT -i -s 11 -a -w -p >jModelTest.o

結果里有它自己根據BIC值選擇的模型構建的進化樹。

一個禮拜，從0走到現在，一套流程走完啦。具體發現了什么，就需要后續的分析啦！

PS. 今年流年不利，幾個項目被砍。腫瘤玩厭了，又搞早篩，現在又“被迫”琢磨了病毒進化。所以接下來我要玩啥呢？逼著我變全能嗎？我不想啊，我想專一一點，我想往大數據、建模方向發展呢！加油！

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,818評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,185評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 175,656評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,647評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,446評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,951評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,041評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,189評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,718評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,800評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,419評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,420評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,755評論 2贊 371

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

輪狀病毒進化分析-Rotavirus

輪狀病毒進化分析-Rotavirus

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

輪狀病毒進化分析-Rotavirus

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频