前言
之前看panda姐的blog時(shí),發(fā)現(xiàn)介紹了篇關(guān)于Metagenome的分析教程,剛好就想著試著翻譯下,作為我的第一篇文章,順帶練練我MarkDown語(yǔ)法的訓(xùn)煉吧。
Introduction
目前微生物學(xué)在宏基因組方面最大的挑戰(zhàn)是需要將宏基因組學(xué)和序列分析納入傳統(tǒng)微生物學(xué)的訓(xùn)練中。Sean Eddy(Howard Hughes醫(yī)學(xué)中心的計(jì)算機(jī)生物學(xué)家)非常6的對(duì)生物學(xué)上的高通量測(cè)序和其訓(xùn)練在他的keynote進(jìn)行了講解。
為了方便微生物學(xué)家組裝宏基因組,我們這次補(bǔ)充了如何評(píng)估宏基因組里參考序列(如,gene,contigs,等等)豐度的指導(dǎo)。我們的方法包括以下所有的參考1.可獲得的基因組參考 2.由宏基因組組裝來(lái)的。通常來(lái)說(shuō),你想完成該指導(dǎo),或者大多數(shù)的宏基因組組裝,需準(zhǔn)備以下東西:
1.可用的服務(wù)器。大多數(shù)宏基因組組裝需要的內(nèi)存是大多數(shù)研究人員的個(gè)人電腦達(dá)不到的。在本次講解中,我們建議您使用公開(kāi)的Amazon EC2樣本服務(wù)器,所有人經(jīng)過(guò)登記后都可以注冊(cè)。
2.一個(gè)宏基因組數(shù)據(jù)庫(kù)。我們本次講解選擇使用WGS數(shù)據(jù)庫(kù)的HMP MOCK種群,鑒于其的可使用性,合適的大小,以及參考基因的可獲得性。該數(shù)據(jù)庫(kù)是22種種類(lèi),其基因被從自然界分離,合并并測(cè)序,而來(lái)的模擬宏基因組。
3.負(fù)責(zé)組裝,read mapping,和基因注釋的軟件,我們將會(huì)展示將這些軟件安裝在Ubuntu系統(tǒng)的服務(wù)器上。
0.和我們登陸同一個(gè)頁(yè)面
本次教程的第一步是提供了一面向所有用戶(hù),無(wú)論你使用壽命電腦的可使用以下全部命令的服務(wù)器。為了達(dá)到這個(gè)目的,我們需要使用云計(jì)算。具體來(lái)說(shuō),亞馬遜網(wǎng)絡(luò)服務(wù)彈性計(jì)算云。租用該網(wǎng)絡(luò)服務(wù),你需要申請(qǐng)一個(gè)信用卡,并使用該信用卡付費(fèi)。該網(wǎng)絡(luò)服務(wù)收費(fèi)很合理。你完成該教程大約在四小時(shí)以?xún)?nèi),花費(fèi)低于1美元。(譯者注:國(guó)內(nèi)可以使用阿里云或百度云完成該教程,注意,在校學(xué)生如果沒(méi)有接觸過(guò)Linux操作系統(tǒng),可以先行購(gòu)買(mǎi)10元/月的學(xué)生優(yōu)惠對(duì)Linux命令與軟件安裝進(jìn)行學(xué)習(xí),但是該服務(wù)器跑RNA-seq分析都跑不動(dòng)啊。)
當(dāng)你注冊(cè)好了亞馬遜網(wǎng)絡(luò)服務(wù)器,你需要按照網(wǎng)站說(shuō)明啟動(dòng)云“案例”或服務(wù)器。作為本次教學(xué),我們建議你使用Data Science Toolbox。在運(yùn)行前有幾點(diǎn)需要注意(不用Amazon的話,以下意義不大):
1.選擇"in the cloud"的運(yùn)行指導(dǎo)。
2.你可以使用任一AMI(系統(tǒng)映像),但我們建議你使用US EAST,ami-d1737bb8。(這個(gè)國(guó)內(nèi)的看看就好了。)
- 不要忘記Data Science Toolbox指導(dǎo)里的第二條規(guī)制:添加“自定義TCP規(guī)制”里端口為“8888”,源為“Anywhere"。
4.從頭至尾的完成到了step4后。當(dāng)你到達(dá)step5時(shí),參考下文。
如果你用的是Mac或Linux操作系統(tǒng)登錄遠(yuǎn)程服務(wù)器出現(xiàn)問(wèn)題:
。檢查你的密鑰權(quán)限是否被更改(就是那個(gè)以*.pem結(jié)尾的那個(gè))
。確定你在跑ssh命令遠(yuǎn)程登錄服務(wù)器和你的安全文件在同一個(gè)文件夾下。
當(dāng)你可以成功的跑類(lèi)似于以下命令時(shí),你便可以成功登錄服務(wù)器(其中的名字和EC2地址是用你自己的)
$ ssh -i MyKeyPair.pem ubuntu@ec2-XX-XX-XX-XXX.compute-1.amazonaws.com
此時(shí)你的命令行變?yōu)轭?lèi)似于如下所示:
ubantu@ip-10-181-106-120:
在運(yùn)行本教程前你還需要做幾件小事,
逐條復(fù)制粘貼以下命令在你的命令行中,并每條后用ENTER運(yùn)行:
cd /mnt
sudo git clone https://github.com/germs-lab/frontiers-review-2015.git
之后輸入下列命令行,并在提示出現(xiàn)后輸入筆記本密碼:
dst setup base
之后再?gòu)?fù)制粘貼以下命令:
sudo ipython notebook --profile=dst --notebook-dir=/mnt/frontiers-review-2015
這樣會(huì)為本次教程啟動(dòng)一個(gè)Ipython Notebook。離開(kāi)終端,打開(kāi)你的互聯(lián)網(wǎng)瀏覽器,最好是Google Chrome。你還需在上面登錄你的EC2實(shí)例的公共DNS地址,如"ec2-XX-XX-XX-XXX"。如果你不知道你的DNS地址,你可以隨時(shí)在你的AWS EC2控制板上查看。
在你的瀏覽器上,導(dǎo)航至https://ec2-XX-XX-XX-XXX:8888。幾乎所有瀏覽器都會(huì)提醒你這是個(gè)不安全的地址,不需要緊張。在Chrome瀏覽器上,你可以點(diǎn)擊“高級(jí)”選項(xiàng),然后再點(diǎn)擊“繼續(xù)進(jìn)程”。然后輸入密碼(之前你輸入的筆記本密碼),然后你就愉快的看見(jiàn)一個(gè)包含著一個(gè)叫”frontiers-nb-2015“文件的筆記本了。
1.如何使用這個(gè)IPython筆記本
IPython筆記本在共同訓(xùn)練生物信息學(xué)時(shí)很有用。這些筆記最近被Nature News ( http://www.nature.com/news/interactive-notebooks-sharing-the-code-1.16261 和 http://www.nature.com/news/programming-pick-up-python-1.16833)報(bào)道。
2.下載本次教程的數(shù)據(jù)
我們從NCBI Short Read Archives(SRA)下載HMP模擬宏基因組作為本次教程的開(kāi)端。NCBI的SRA中存儲(chǔ)了許多公開(kāi)的宏基因組。使用sratoolkit軟件是最簡(jiǎn)單的獲得SRA數(shù)據(jù)的方法。如果你知道你需要的SRA run ID(比如SRR172903),你可以用專(zhuān)門(mén)的程序下載該數(shù)據(jù)并轉(zhuǎn)為”fasta“或者”fastq"格式序列。
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.4.5-2/sratoolkit.2.4.5-2-ubuntu64.tar.gz
tar -xvf sratoolkit.2.4.5-2ubuntu64.tar.gz
你現(xiàn)在使用ls命令可以發(fā)現(xiàn)多出來(lái)個(gè)包含軟件的文件夾。你同時(shí)在我們工作的notebook上看見(jiàn)該文件夾。
ls
現(xiàn)在,我們可以使用安裝好的sratoolkit程序去下載HMP模擬數(shù)據(jù)庫(kù)的"fastq"格式了。(大概會(huì)花費(fèi)1到2分鐘。耐心在宏基因組的研究中很有必要,好消息就是你依靠“租用”的云服務(wù)器工作,不會(huì)占用你個(gè)人電腦內(nèi)存的運(yùn)算能力--這樣等待的過(guò)程中,你可以做自己的事。你會(huì)注意到有個(gè)“Kernel busy"會(huì)顯示在"登出"按鈕下方屏幕的右上角處。
sratoolkit.2.4.5-2-ubuntu64/bin/fastq-dump SRR172903
3.質(zhì)量控制
有很多種方法可以去測(cè)定你組裝的序列數(shù)據(jù)的質(zhì)量。首先,你可以查看你測(cè)序reads的質(zhì)量分?jǐn)?shù),如果必要,你可以使用分?jǐn)?shù)不滿足的reads,之后進(jìn)行修剪。有大量的軟件可以進(jìn)行修剪,一些軟件還包含著很好的教程,包括FastX Toolkit(http://hannonlab.cshl.edu/fastx_toolkit/ 和 http://khmer-protocols.readthedocs.org/en/v0.8-1/metagenomics/1-quality.html),F(xiàn)astQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 和 http://ged.msu.edu/angus/tutorials-2013/short-read-quality-evaluation.html)與及Sickle(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 和 http://ged.msu.edu/angus/tutorials-2013/short-read-quality-evaluation.html)。
你之前下載的“fastq”格式的序列文件,其每個(gè)序列read由四行展示,我們做個(gè)快速的瀏覽:
head -n 4 SRR172903.fastq
. 第一行(開(kāi)頭是“@SRR172903.1”)是read的標(biāo)識(shí)符,它通常是展示read的ID,測(cè)序儀器的一些關(guān)于如何獲取序列的信息。
. 第二行是DNA序列。
. 第三行的內(nèi)容以第一行相同,只是把"@"換成了"+",有時(shí)在部分?jǐn)?shù)據(jù)庫(kù)內(nèi)只有一個(gè)"+"。
. 第四行是DNA序列每個(gè)堿基對(duì)的質(zhì)量評(píng)分信息,注意該部分是與DNA序列長(zhǎng)度一致的,且該質(zhì)量得分是基于ASCII碼字符分?jǐn)?shù)(其具有測(cè)序技術(shù)確定偏移,Illumina目前的偏移是64,例如,ASCII編碼 64 = 0 Phred 得分)。質(zhì)量得分等于 -10*log(p), p是該堿基錯(cuò)誤的概率(比如,如果Q=20, p=0.01,就是有1%的幾率這個(gè)堿基是錯(cuò)誤的。
這次教程中,我們會(huì)將超過(guò)序列內(nèi)超過(guò)50%的堿基Phred得分低于33分的read移除。移除過(guò)程將用Fastx-Toolkit完成,該軟件可以進(jìn)行多種質(zhì)量控制(比如adapter剪切)。我們首先來(lái)下載,解壓和安裝這個(gè)軟件吧。
wget https://github.com/agordon/fastx_toolkit/releases/download/0.0.14/fastx_toolkit-0.0.14.tar.bz2
wget https://github.com/agordon/libgtextutils/releases/download/0.7/libgtextutils-0.7.tar.gz
tar -xvf fastx_toolkit-0.0.14.tar.bz2
tar -xvf libgtextutils-0.7.tar.gz
bash fastx_install.sh
現(xiàn)在,我們可以開(kāi)始質(zhì)量過(guò)濾了,并將過(guò)濾后的文件儲(chǔ)存為SRR172903.qc.fastq。
FASTQ質(zhì)量控制
$ fastq_quality_filter -h usage: fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]
version 0.0.6
[-h] = This helpful help screen.
[-q N] = Minimum quality score to keep.
[-p N] = Minimum percent of bases that must have [-q] quality.
[-z] = Compress output with GZIP.
[-i INFILE] = FASTA/Q input file. default is STDIN.
[-o OUTFILE] = FASTA/Q output file. default is STDOUT.
[-v] = Verbose - report number of sequences.
If [-o] is specified, report will be printed to STDOUT.
If [-o] is not specified (and output goes to STDOUT),
report will be printed to STDERR.
fastq_quality_filter -q 33 -p 50 -i SRR172903.fastq > SRR172903.qc.fastq
4.多樣化檢查---“都有誰(shuí)在”的分布情況
宏基因組測(cè)序的優(yōu)勢(shì)在于其無(wú)需微生物培養(yǎng)就能夠量化微生物在環(huán)境中分布的能力。通常大多數(shù)研究需要了解其分類(lèi)多樣性(尤其是對(duì)16s rRNA基因測(cè)序的研究中)。多樣性也能在宏基因組的特定序列模式的表示下被測(cè)定。比如,可以量化宏基因組中獨(dú)特的核苷酸k-mers。這些k-mers也能用作組裝宏基因組,重疊的k-mers被用于指出read應(yīng)該被連接在一起。k-mers的多樣性可以給你用來(lái)研究你樣本的多樣性。同時(shí),由于組裝對(duì)比中每一個(gè)k-mer需要與所有的k-mers進(jìn)行對(duì)比,所以大量的k-mers存在需要更多的計(jì)算機(jī)內(nèi)存。Miller等人對(duì)k-mers和組裝做了個(gè)很好的綜述。
(需要注意的是,16S rRNA擴(kuò)增子測(cè)序是一種靶向的方法,在本教程中默認(rèn)其不屬于宏基因組測(cè)序。鳥(niǎo)槍法宏基因組測(cè)序是將種群中全部細(xì)胞的DNA提取出來(lái)進(jìn)行測(cè)序。而靶向測(cè)序擴(kuò)增特點(diǎn)的基因座并獨(dú)立測(cè)序。Sharpton等人在宏基因組分析上有很好的綜述。)
現(xiàn)在我們需要做的是安裝khmer--它包括了一套khmer和pre-assembly工具。我們?cè)谶@里用于k-mer的計(jì)數(shù)。一旦你開(kāi)始運(yùn)行一下腳本,你能夠開(kāi)始使用khmer的許多工具了。
ls
bash khmer-install.sh
接下來(lái)的腳本包含在khmer包中,并可以估算數(shù)據(jù)集的k-mers的唯一總數(shù)。用該數(shù)據(jù)可以a.)明確宏基因組組成的多樣性,例如用于組裝的細(xì)菌基因組,b.)比較復(fù)數(shù)宏基因組之間的k-mer多樣性,c.)探討k長(zhǎng)度選擇對(duì)組裝的影響。
然后為了評(píng)估不同k值(17,21,25,29,33,37)的k-mers的唯一總數(shù),運(yùn)行下面的腳本。該腳本輸出唯一k-mers但也將將其保存在unique_count文件中。(該過(guò)程在一個(gè)大型服務(wù)器實(shí)例中大概耗時(shí)15分鐘,在超大型實(shí)例中耗時(shí)8-10分鐘。)
python unique-kmers.py -R unique_count -k 17 SRR172903.qc.fastq
python unique-kmers.py -R unique_count -k 21 SRR172903.qc.fastq
python unique-kmers.py -R unique_count -k 25 SRR172903.qc.fastq
python unique-kmers.py -R unique_count -k 29 SRR172903.qc.fastq
python unique-kmers.py -R unique_count -k 33 SRR172903.qc.fastq
python unique-kmers.py -R unique_count -k 37 SRR172903.qc.fastq
現(xiàn)在你可以看見(jiàn)這個(gè)文件,第一欄顯示k-mer長(zhǎng)度,第二欄顯示宏基因組中所要求的k長(zhǎng)度的數(shù)量。如果你有復(fù)數(shù)的基因組,你可以通過(guò)比如數(shù)據(jù)庫(kù)里的k-mers總數(shù)比較其多樣性。你可以使用命令“cat”來(lái)查看文件里的結(jié)果。
cat unique_count
5.得到基因的覆蓋描述:我的宏基因組目前有哪些基因?
大多數(shù)的宏基因組分析需要評(píng)估參考基因的豐都(比如,來(lái)自基因組或者自己組裝的宏基因組)。本教程將覆蓋參考基因可以得到或不可以得到(需要de nove組裝)的兩種情況。
6.例子1--有可獲得的參考基因
對(duì)于模擬的HMP宏基因組,HMP已經(jīng)對(duì)用于模擬數(shù)據(jù)庫(kù)的被分離的基因組進(jìn)行過(guò)測(cè)序。這些基因組的列表可以在HMP網(wǎng)站上獲得,同時(shí)我們將他上傳到了github倉(cāng)庫(kù)---一個(gè)用來(lái)協(xié)作分享數(shù)據(jù)和代碼的工具。本次教程中用以下命令就可以下載該數(shù)據(jù)。
cat ncbi_acc.txt
下面的命令用于下載上面那個(gè)列表中的每一個(gè)ID的基因組進(jìn)入一個(gè)叫“genomes"的字典。
python fetch-genomes-fasta.py ncbi_acc.txt genomes
7.估計(jì)組裝contigs的豐度
為了評(píng)估你基因組里參考基因和基因組的表現(xiàn),你可以用mapping軟件將reads比對(duì)到參考基因上(比如,Bowtie2,BWA等等)。在本次教程中,我們將在我們的服務(wù)器上安裝并使用Bowtie2。我們之后會(huì)mapping我們的宏基因組到單參考基因組上(我們之前下下來(lái)的。)。
wget http://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.5/bowtie2-2.2.5-linux-x86_64.zip
unzip bowtie2-2.2.5-linux-x86_64.zip
我寫(xiě)一個(gè)的腳本能夠自動(dòng)將一系列read map到給與的參考基因上并輸出一個(gè)包含能夠被map上的reads數(shù)量的文件。為了使用該腳本,我們需要安裝samtools。samtools幫我們與一種超級(jí)壓縮文件samfile交互,該文件可以有效的從mapper中儲(chǔ)存mapped信息。
apt-get install samtools
我們提供一個(gè)簡(jiǎn)單的操作過(guò)程來(lái)將reads map到參考基因組上。該過(guò)程操作如下述步驟:
.制作你的參考基因索引
.將你的reads map到你的參考基因索引中(用默認(rèn)的bowtie參數(shù))
.用Samtools評(píng)估你的read的map數(shù),沒(méi)有map上的數(shù),并且提供一個(gè)制表符分割文件,每行一個(gè)參考基因名和序列長(zhǎng)度,map上的read和未map上的read。
該過(guò)程大概花8到10分鐘。
bash bowtie.sh genomes/NC_000913.2.fa SRR172903.qc.fastq
現(xiàn)在我們可以看看基因組NC_000913上map和沒(méi)有map到的read了。我們同時(shí)有了個(gè)文件可以展示參考基因名(第一列),參考基因長(zhǎng)度(第二列),map上的read(第三列)和未map上的read(最后一列)。你可以點(diǎn)擊這里查詢(xún)關(guān)于samtools的更多信息。
cat reads-mapped.count.txt
cat reads-unmapped.count.txt
如果你想要挑戰(zhàn)一下更難的任務(wù),你可以試試map這個(gè)宏基因組到基因組文件夾提供的所有參考基因組上。試試串聯(lián)所有基因組到一個(gè)文件夾里吧(命令是"cat genomes/*fa >> all-genomes.fa")并運(yùn)行對(duì)所有g(shù)enomes.fa運(yùn)行腳本,而不僅僅是對(duì)NC_000913.2.fa。
8.例子2--De novo組裝參考基因
HMP模擬宏基因組的組裝
組裝是將宏基因組里有望來(lái)自同一基因的reads的重復(fù)部分合并,使其成為一個(gè)較長(zhǎng)的,連續(xù)的序列(通常稱(chēng)之為一個(gè)contig)。其優(yōu)點(diǎn)是提供一個(gè)更長(zhǎng)的序列,使其能過(guò)在未來(lái)作為參考基因(之前未知的),減少分析的數(shù)據(jù)量,并提供一個(gè)不依賴(lài)過(guò)去知識(shí)的參考。
選擇使用什么組裝方式并不容易且存在爭(zhēng)議。請(qǐng)記住重要的一點(diǎn),組裝是對(duì)你的數(shù)據(jù)的公認(rèn)的假設(shè)表達(dá)。組裝本身只是第一步,接下來(lái)需要對(duì)其精確性和實(shí)用性進(jìn)行評(píng)估。對(duì)于大多數(shù)的組裝情況,需要將測(cè)序的reads和參數(shù)輸入組裝軟件。本次教程我們將使用2014年發(fā)布的Megahit(Li et al.,2015,https://github.com/voutcn/megahit)進(jìn)行組裝。Sharpton的綜述(Sharpton, 2014)同樣也介紹了許多很好的宏基因組組裝流程和方法。
為了減少所需的內(nèi)存,常常需要事前統(tǒng)一宏基因組中k-mers的分布。刪除無(wú)需組裝的額外信息和可能錯(cuò)誤的reads可以?xún)?yōu)化組裝(http://arxiv.org/abs/1203.4802)。這些腳本與教程你可以從 http://ged.msu.edu/angus/diginorm-2012/tutorial.html 中獲得。
本次教程中,我們使用Megahit組裝宏基因組,所以,讓我們先安裝megahit。
bash install-megahit.sh
該過(guò)程大約15分鐘,然后我們會(huì)獲得一個(gè)叫做”megahit_assembly"的文件夾。你可以用在這里閱讀其參數(shù),比如 --memory是指定其可以使用的最大內(nèi)存。
megahit/megahit --memory 10e9 -l 250 --k-max 81 -r SRR172903.qc.fastq --cpu-only -o megahit_assembly
為了看看這個(gè)組裝,讓我們?cè)谧罱Kcontigs所在的megahit_assembly.final.contigs.fa文件下運(yùn)行khmer組裝總程序。我們統(tǒng)計(jì)下contigs大于等于200bp的。
python khmer/sandbox/assemstats3.py 200 megahit_assembly/final.contigs.fa
9.評(píng)估contigs豐都
當(dāng)組裝結(jié)束是,你有一組可以評(píng)估宏基因組豐都的參考contigs。評(píng)估方法與之前使用參考基因組的方法相同。
這些會(huì)花20分鐘。
bash bowtie.sh megahit_assembly/final.contigs.fa SRR172903.qc.fastq
你可以如同將reads map到NCBI基因組一樣的查看下列map結(jié)果。
cat reads-mapped.count.txt
cat reads-unmapped.count.txt
cat reads.by.contigs.txt
10.注釋組裝后的contigs
測(cè)序通常是來(lái)確定你樣品里的“who"和"what"。在我們的例子里,我們知道HMP模擬種群來(lái)源的一組基因組(我們?cè)谥跋螺d的。)。將未知序列與已知參考基因進(jìn)行對(duì)比的是最為流行的工具中的其中之一--The Basic Local Alignment Search Tool(BLAST)。為了明確我們的ontigs的來(lái)源,我們將組裝的contigs和HMP模擬種群的基因組進(jìn)行比對(duì)。
我們首先下載BLAST軟件。鑒于序列數(shù)據(jù)庫(kù)容量的不斷增加,也可以考慮使用目前在注釋中更有效率的新工具,比如Diamond(https://github.com/bbuchfink/diamond/, http://dx.doi.org/10.1038/nmeth.3176)。
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.30/ncbi-blast-2.2.30+-x64-linux.tar.gz
tar -xvf ncbi-blast-2.2.30+-x64-linux.tar.gz
現(xiàn)在我們可以為BLAST做一個(gè)可搜索的數(shù)據(jù)庫(kù)了。首先,我們要把在基因組字典里的所有基因組連接到同一個(gè)文件里。
cat genomes/*fa >> all-genomes.fa
ncbi-blast-2.2.30+/bin/makeblastdb -in all-genomes.fa -dbtype nucl -out all-genomes
ncbi-blast-2.2.30+/bin/blastn -db all-genomes -query megahit_assembly/final.contigs.fa -outfmt 6 -out contigs.x.all-genomes.blastnout
上面的命令比對(duì)了每一個(gè)query(每一個(gè)在組裝好的final.contings.fa文件里的序列)與每一個(gè)序列(比如all-genomes.fa中的基因組)。-outfmt告訴該程序?qū)⒔Y(jié)果以制表符格式存在 -out 的 contigs.x.all-genomes.blastnout 文件中。
讓我們瞧一眼這個(gè)文件的前10行。你會(huì)看見(jiàn)query(contig)和hit(genome)后的同一性百分比,對(duì)比長(zhǎng)度,錯(cuò)配計(jì)數(shù),間隙開(kāi)放計(jì)數(shù),query開(kāi)始位置,query結(jié)束位置,subject開(kāi)始位置,subject結(jié)束位置,E-值和比特得分。
head -n 10 contigs.x.all-genomes.blastnout
根據(jù)你的研究問(wèn)題,對(duì)開(kāi)放閱讀框(ORFs)的注釋可能比對(duì)contigs序列的注釋更有意義。本次例子中,存在多個(gè)可以使用的ORF caller((e.g., FragGeneScan, http://nar.oxfordjournals.org/content/early/2010/08/29/nar.gkq747.abstract 和 Metagene, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1636498/)。我們可以用FragGeneScan從我們的contigs調(diào)用ORFs。首先依舊是按如下方式下載,安裝軟件,然后從我們的contigs中調(diào)用ORFs:
wget http://downloads.sourceforge.net/project/fraggenescan/FragGeneScan1.19.tar.gz
tar -xvf FragGeneScan1.19.tar.gz
bash fraggenescan-install.sh
我們將在組裝的contigs上運(yùn)行FragGeneScan,假設(shè)它符合“完整”基因組序列的訓(xùn)練特征(在他們的文檔中,這等于完整的基因組序列或短序列讀數(shù)而沒(méi)有測(cè)序錯(cuò)誤)。
FragGeneScan1.19/FragGeneScan -s megahit_assembly/final.contigs.fa -o final.contigs.orfs.fa -w 1 -t complete
ORFs調(diào)用后最終組成為一個(gè)FASTA文件,存在final.contigs.orfs.fa.faa(氨基酸)和final.contigs.orfs.fa.ffn(堿基)中,你可以根據(jù)以上contigs描述的數(shù)據(jù)對(duì)你選擇的數(shù)據(jù)庫(kù)進(jìn)行描述。
11.以后的事
現(xiàn)在你知道獲得以下信息的所有該知道的事了:
1,序列豐都信息:序列(比如contig)和豐都(比如,可map的read數(shù))
2,序列注釋信息:序列(比如contig)和NCBI基因組
你會(huì)注意到這與16S rRNA擴(kuò)增子分析相似,你可以在其中獲得OTU豐度表和OTU最佳命中注釋。對(duì)于宏基因組分析,得到這些信息你可以用于進(jìn)一步的分析和可視化軟件包,如R語(yǔ)言中的PhyloSeq包。
譯者最后說(shuō)下
本文是我在學(xué)習(xí)宏基因組的過(guò)程中進(jìn)行翻譯的,所以有很多地方還有錯(cuò)誤,同時(shí)你們也會(huì)發(fā)現(xiàn)包括read,contig,map之類(lèi)的詞...我完全不知道它們的中文是什么呀,請(qǐng)大家原諒,如果發(fā)現(xiàn)有什么地方不對(duì)多多指教,在原文中,每一個(gè)linux腳本代碼前都有”!“,我學(xué)了那么久的linux,沒(méi)見(jiàn)過(guò)這樣的用法,我一開(kāi)始擔(dān)心是格式轉(zhuǎn)換問(wèn)題,所以我默默的刪去了,最后原文有寫(xiě)為什么加”!“,好像是Ipython notebook的內(nèi)置語(yǔ)法,我沒(méi)太搞清楚。這也是我blog的第一篇文章,以后看到關(guān)于腸道微生物,宏基因組,Python和R語(yǔ)言的好文章,或者有寫(xiě)什么總結(jié),會(huì)持續(xù)發(fā)在我的Git上的,emmmm....雖然我想看得人不會(huì)很多,但是還是寫(xiě)一下吧,如果有人看當(dāng)然更有動(dòng)力啦。啊哈哈哈哈哈~