筆記
基因家族
同一個祖先基因經過變異,產生了結構、功能相似的各種表達蛋白,表達這些蛋白的基因統歸為一個基因家族。
超基因家族
同一個祖先基因經過變異,產生了結構相似、功能不同的各種表達蛋白,表達這些蛋白的基因統歸為一個基因超家族。
domain
一個基因轉錄的蛋白質分子中可以包含多個結構特異并且功能不同的區域,這些區域稱之為domain,domain 可以看作蛋白質功能的基本單位,蛋白質的功能由包含的多個domain共同決定,研究domain, 可以更好的研究蛋白質功能,而具有相同結構域的基因往往形成一個基因家族。
流程
下載基因家族模型
在PFAM中下載
在文獻中找到pfam ID :PF02519 (睡蓮)
已獲取HMM文件
下載hmmer
Linux可以在官網下載
windows下載網址:http://hmmer.janelia.org/static/binaries/hmmer3.0_windows.zip
(直接打開會404,用迅雷打開就可以了)
下載后解壓即可使用。
使用hmmer
在桌面按windows+R,輸入CMD,進入窗口后,輸入“D:”,進入hmmer所在文件夾。
hmmbuild 要輸出的文件名(.hmm)+sto文件(相對路徑)
(不小心命名錯了T T)
alen表示比對氨基酸一共465個,mlen表示最大比對上218個氨基酸,eff_nseq表示比對效率0.96存在15.58個gap,re/pos表示每個位置的相對熵0.590
隨便打開看看(ASCII碼文件)
cat 02319.hmm
hmmsearch搜索序列數據庫
需要一個蛋白質數據文件,是fasta格式,uniprot sprot.fasta
在uniprot中搜Nymphaeales找家族蛋白質數據
(嘗試在文獻中找,但是那個網址下載一直失敗。就自己搜搜看了)
文件下載好后,輸入
hmmsearch 02319.hmm uniprot-Nymphaeales.fasta > 02519.out
02319.hmm是上一步輸出的文件,.fasta文件是下載好的蛋白質文件,02519.out是輸出文件。
文件內容
比對到的含有domain的序列,按E值來排序,從小到大
- 第一列的E-vaule是最終要的一個參數,越小越有可能是同源的序列
- 第二列的score也可以用來評估可能性,而且不依賴于比對數據庫的大小,只依賴HMM文件和目標序列
- 第三列bias是score的偏差,比如score是222.7,那么原始值就是加上3.2,等于225.9,但是這個數值一般不重要,可以忽略不看。
后面的3列也是一樣的參數,只是對于best 1 domain而言,前三列是對于full sequence而言。最后的#dom內容是有多少個domain,exp是均值,可以是小數,而N是真正的整數個數。
教程參考https://cloud.tencent.com/developer/article/1424604
clustalx的使用
下載clustalx(Windows)/clustaw(Linux)
下載網址http://www.clustal.org/download/current/
安裝后
在kegg找同源但不同物種的基因序列。我找的是擬南芥(Arabidopsis thaliana (thale cress))的光系統II蛋白D1基因(NCBI-GeneID: 844802)和亞麻(Camelina sativa (false flax))的光系統II蛋白D1基因。
在NCBI中,擬南芥葉綠體的psbA基因序列
其他同理可得
第一步:輸入序列文件,選擇.fasta文件
選擇第二個比對文件,也是.fasta文件
第二步,選擇多重比對參數
第三步,選擇好后,進行多重比對
對輸出的.dnd和.aln文件選擇輸出位置及文件命名
.aln是序列比對的文件,可以進一步用于構建系統發育樹,.dnd是向導樹文件(指導樹)。
第四步,比對完成,選擇輸出結果文件的格式
比對結果如下
MAFFT的使用
這是另一個比對軟件
序列過濾
序列比對雜亂的序列認為其是噪音,需進行過濾。
trimAL
下載:
conda install trimal
用conda安裝,要首先安裝了conda才能裝trimal。
-gappyout 過濾掉gap-rich的部分
建樹
選擇模型
jModelTest 用于找DNA建樹模型,ProtTest用于找蛋白質建樹模型。
也可以用iqTree軟件建樹,里面帶有ModelFinder,可以自動幫你找模型。
iqtree -s turtle.fa -m MF -pre turtle.MF -mset JC,GTR #-s 輸入多重序列比對序列 -m 確定模型(如有),如果沒有就輸入MF modelfiner -pre 輸出文件前綴 -mset 限定搜索范圍
I 不變的
G4 γ分布
PartitionFinder
不僅找每個基因的模型,而且把進化模型相似的分為一個組,以一整個區塊拿來分析。
下載MEGA
下載網址http://www.drv5.cn/sfinfo/15726.html
安裝后打開。
第一步,將6條序列合并到同一個.fasta文件中。
第二步,打開MEGA,按下圖操作后選擇含有所有序列的.fasta文件。
按shift可多選序列
第三步,選擇對齊方式,ClustalW適用于基因序列,MUSCLE適用于蛋白質序列。
對齊后保存為.meg格式,用于后續建樹。
.mas格式保不保存都無所謂,但順手保存了。
第四步,關閉窗口后,回到原來MEGA窗口。點擊phylogeny
彈出“是否使用剛剛生成的.meg?”,點擊“是”,如不會調參數可以使用默認參數,即可生成進化樹。在彈出窗口“Tree Explorer”中可以對進化樹進行美化、調整等。還可以用word進一步編輯該進化樹。