基因家族分析

筆記

基因家族

同一個祖先基因經過變異,產生了結構、功能相似的各種表達蛋白,表達這些蛋白的基因統歸為一個基因家族。

超基因家族

同一個祖先基因經過變異,產生了結構相似、功能不同的各種表達蛋白,表達這些蛋白的基因統歸為一個基因超家族。

domain

一個基因轉錄的蛋白質分子中可以包含多個結構特異并且功能不同的區域,這些區域稱之為domain,domain 可以看作蛋白質功能的基本單位,蛋白質的功能由包含的多個domain共同決定,研究domain, 可以更好的研究蛋白質功能,而具有相同結構域的基因往往形成一個基因家族。

流程

下載基因家族模型

在PFAM中下載
在文獻中找到pfam ID :PF02519 (睡蓮)


image.png

image.png

已獲取HMM文件

下載hmmer

Linux可以在官網下載
windows下載網址:http://hmmer.janelia.org/static/binaries/hmmer3.0_windows.zip
(直接打開會404,用迅雷打開就可以了)
下載后解壓即可使用。

使用hmmer

在桌面按windows+R,輸入CMD,進入窗口后,輸入“D:”,進入hmmer所在文件夾。

hmmbuild 要輸出的文件名(.hmm)+sto文件(相對路徑)
image.png

(不小心命名錯了T T)
alen表示比對氨基酸一共465個,mlen表示最大比對上218個氨基酸,eff_nseq表示比對效率0.96存在15.58個gap,re/pos表示每個位置的相對熵0.590
隨便打開看看(ASCII碼文件)

cat 02319.hmm
image.png

hmmsearch搜索序列數據庫

需要一個蛋白質數據文件,是fasta格式,uniprot sprot.fasta
在uniprot中搜Nymphaeales找家族蛋白質數據


image.png

(嘗試在文獻中找,但是那個網址下載一直失敗。就自己搜搜看了)


image.png

文件下載好后,輸入
hmmsearch  02319.hmm uniprot-Nymphaeales.fasta > 02519.out

02319.hmm是上一步輸出的文件,.fasta文件是下載好的蛋白質文件,02519.out是輸出文件。
文件內容


image.png

比對到的含有domain的序列,按E值來排序,從小到大

  • 第一列的E-vaule是最終要的一個參數,越小越有可能是同源的序列
  • 第二列的score也可以用來評估可能性,而且不依賴于比對數據庫的大小,只依賴HMM文件和目標序列
  • 第三列bias是score的偏差,比如score是222.7,那么原始值就是加上3.2,等于225.9,但是這個數值一般不重要,可以忽略不看。
    后面的3列也是一樣的參數,只是對于best 1 domain而言,前三列是對于full sequence而言。最后的#dom內容是有多少個domain,exp是均值,可以是小數,而N是真正的整數個數。

教程參考https://cloud.tencent.com/developer/article/1424604

clustalx的使用

下載clustalx(Windows)/clustaw(Linux)
下載網址http://www.clustal.org/download/current/
安裝后

image.png

在kegg找同源但不同物種的基因序列。我找的是擬南芥(Arabidopsis thaliana (thale cress))的光系統II蛋白D1基因(NCBI-GeneID: 844802)和亞麻(Camelina sativa (false flax))的光系統II蛋白D1基因。
image.png

在NCBI中,擬南芥葉綠體的psbA基因序列
image.png

其他同理可得
第一步:輸入序列文件,選擇.fasta文件
image.png

選擇第二個比對文件,也是.fasta文件
image.png

第二步,選擇多重比對參數
image.png

image.png

第三步,選擇好后,進行多重比對
image.png

對輸出的.dnd和.aln文件選擇輸出位置及文件命名
image.png

.aln是序列比對的文件,可以進一步用于構建系統發育樹,.dnd是向導樹文件(指導樹)。
第四步,比對完成,選擇輸出結果文件的格式
image.png

image.png

比對結果如下
image.png

MAFFT的使用

這是另一個比對軟件

序列過濾

序列比對雜亂的序列認為其是噪音,需進行過濾。

trimAL

下載:

conda install trimal

用conda安裝,要首先安裝了conda才能裝trimal。
-gappyout 過濾掉gap-rich的部分

建樹

選擇模型

jModelTest 用于找DNA建樹模型,ProtTest用于找蛋白質建樹模型。
也可以用iqTree軟件建樹,里面帶有ModelFinder,可以自動幫你找模型。

iqtree -s turtle.fa -m MF -pre turtle.MF -mset JC,GTR   #-s 輸入多重序列比對序列  -m 確定模型(如有),如果沒有就輸入MF modelfiner -pre 輸出文件前綴  -mset 限定搜索范圍
image.png

I 不變的
G4 γ分布


image.png
PartitionFinder

不僅找每個基因的模型,而且把進化模型相似的分為一個組,以一整個區塊拿來分析。

下載MEGA

下載網址http://www.drv5.cn/sfinfo/15726.html
安裝后打開。
第一步,將6條序列合并到同一個.fasta文件中。

image.png

第二步,打開MEGA,按下圖操作后選擇含有所有序列的.fasta文件。
image.png

image.png

image.png

按shift可多選序列
第三步,選擇對齊方式,ClustalW適用于基因序列,MUSCLE適用于蛋白質序列。
image.png

對齊后保存為.meg格式,用于后續建樹。
image.png

.mas格式保不保存都無所謂,但順手保存了。
第四步,關閉窗口后,回到原來MEGA窗口。點擊phylogeny
image.png

彈出“是否使用剛剛生成的.meg?”,點擊“是”,如不會調參數可以使用默認參數,即可生成進化樹。在彈出窗口“Tree Explorer”中可以對進化樹進行美化、調整等。還可以用word進一步編輯該進化樹。
image.png

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,967評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,273評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,870評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,742評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,527評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,010評論 1 322
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,108評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,250評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,769評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,656評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,853評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,371評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,103評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,472評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,717評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,487評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,815評論 2 372