2018-08-20 Metagenome分析教程

pic

前言

之前看panda姐的blog時(shí),發(fā)現(xiàn)介紹了篇關(guān)于Metagenome的分析教程,剛好就想著試著翻譯下,作為我的第一篇文章,順帶練練我MarkDown語(yǔ)法的訓(xùn)煉吧。

Introduction

目前微生物學(xué)在宏基因組方面最大的挑戰(zhàn)是需要將宏基因組學(xué)和序列分析納入傳統(tǒng)微生物學(xué)的訓(xùn)練中。Sean Eddy(Howard Hughes醫(yī)學(xué)中心的計(jì)算機(jī)生物學(xué)家)非常6的對(duì)生物學(xué)上的高通量測(cè)序和其訓(xùn)練在他的keynote進(jìn)行了講解。

為了方便微生物學(xué)家組裝宏基因組,我們這次補(bǔ)充了如何評(píng)估宏基因組里參考序列(如,gene,contigs,等等)豐度的指導(dǎo)。我們的方法包括以下所有的參考1.可獲得的基因組參考 2.由宏基因組組裝來(lái)的。通常來(lái)說(shuō),你想完成該指導(dǎo),或者大多數(shù)的宏基因組組裝,需準(zhǔn)備以下東西:

1.可用的服務(wù)器。大多數(shù)宏基因組組裝需要的內(nèi)存是大多數(shù)研究人員的個(gè)人電腦達(dá)不到的。在本次講解中,我們建議您使用公開(kāi)的Amazon EC2樣本服務(wù)器,所有人經(jīng)過(guò)登記后都可以注冊(cè)。

2.一個(gè)宏基因組數(shù)據(jù)庫(kù)。我們本次講解選擇使用WGS數(shù)據(jù)庫(kù)的HMP MOCK種群,鑒于其的可使用性,合適的大小,以及參考基因的可獲得性。該數(shù)據(jù)庫(kù)是22種種類(lèi),其基因被從自然界分離,合并并測(cè)序,而來(lái)的模擬宏基因組。

3.負(fù)責(zé)組裝,read mapping,和基因注釋的軟件,我們將會(huì)展示將這些軟件安裝在Ubuntu系統(tǒng)的服務(wù)器上。

0.和我們登陸同一個(gè)頁(yè)面

本次教程的第一步是提供了一面向所有用戶(hù),無(wú)論你使用壽命電腦的可使用以下全部命令的服務(wù)器。為了達(dá)到這個(gè)目的,我們需要使用云計(jì)算。具體來(lái)說(shuō),亞馬遜網(wǎng)絡(luò)服務(wù)彈性計(jì)算云。租用該網(wǎng)絡(luò)服務(wù),你需要申請(qǐng)一個(gè)信用卡,并使用該信用卡付費(fèi)。該網(wǎng)絡(luò)服務(wù)收費(fèi)很合理。你完成該教程大約在四小時(shí)以?xún)?nèi),花費(fèi)低于1美元。(譯者注:國(guó)內(nèi)可以使用阿里云百度云完成該教程,注意,在校學(xué)生如果沒(méi)有接觸過(guò)Linux操作系統(tǒng),可以先行購(gòu)買(mǎi)10元/月的學(xué)生優(yōu)惠對(duì)Linux命令與軟件安裝進(jìn)行學(xué)習(xí),但是該服務(wù)器跑RNA-seq分析都跑不動(dòng)啊。)

當(dāng)你注冊(cè)好了亞馬遜網(wǎng)絡(luò)服務(wù)器,你需要按照網(wǎng)站說(shuō)明啟動(dòng)云“案例”或服務(wù)器。作為本次教學(xué),我們建議你使用Data Science Toolbox。在運(yùn)行前有幾點(diǎn)需要注意(不用Amazon的話,以下意義不大):

1.選擇"in the cloud"的運(yùn)行指導(dǎo)。

2.你可以使用任一AMI(系統(tǒng)映像),但我們建議你使用US EAST,ami-d1737bb8。(這個(gè)國(guó)內(nèi)的看看就好了。)

  1. 不要忘記Data Science Toolbox指導(dǎo)里的第二條規(guī)制:添加“自定義TCP規(guī)制”里端口為“8888”,源為“Anywhere"。

4.從頭至尾的完成到了step4后。當(dāng)你到達(dá)step5時(shí),參考下文。

如果你用的是Mac或Linux操作系統(tǒng)登錄遠(yuǎn)程服務(wù)器出現(xiàn)問(wèn)題:

。檢查你的密鑰權(quán)限是否被更改(就是那個(gè)以*.pem結(jié)尾的那個(gè))

。確定你在跑ssh命令遠(yuǎn)程登錄服務(wù)器和你的安全文件在同一個(gè)文件夾下。

當(dāng)你可以成功的跑類(lèi)似于以下命令時(shí),你便可以成功登錄服務(wù)器(其中的名字和EC2地址是用你自己的)

    $ ssh -i MyKeyPair.pem ubuntu@ec2-XX-XX-XX-XXX.compute-1.amazonaws.com

此時(shí)你的命令行變?yōu)轭?lèi)似于如下所示:

ubantu@ip-10-181-106-120:

在運(yùn)行本教程前你還需要做幾件小事,

逐條復(fù)制粘貼以下命令在你的命令行中,并每條后用ENTER運(yùn)行:

    cd /mnt

    sudo git clone https://github.com/germs-lab/frontiers-review-2015.git

之后輸入下列命令行,并在提示出現(xiàn)后輸入筆記本密碼:

    dst setup base

之后再?gòu)?fù)制粘貼以下命令:

    sudo ipython notebook --profile=dst --notebook-dir=/mnt/frontiers-review-2015

這樣會(huì)為本次教程啟動(dòng)一個(gè)Ipython Notebook。離開(kāi)終端,打開(kāi)你的互聯(lián)網(wǎng)瀏覽器,最好是Google Chrome。你還需在上面登錄你的EC2實(shí)例的公共DNS地址,如"ec2-XX-XX-XX-XXX"。如果你不知道你的DNS地址,你可以隨時(shí)在你的AWS EC2控制板上查看。

在你的瀏覽器上,導(dǎo)航至https://ec2-XX-XX-XX-XXX:8888。幾乎所有瀏覽器都會(huì)提醒你這是個(gè)不安全的地址,不需要緊張。在Chrome瀏覽器上,你可以點(diǎn)擊“高級(jí)”選項(xiàng),然后再點(diǎn)擊“繼續(xù)進(jìn)程”。然后輸入密碼(之前你輸入的筆記本密碼),然后你就愉快的看見(jiàn)一個(gè)包含著一個(gè)叫”frontiers-nb-2015“文件的筆記本了。

1.如何使用這個(gè)IPython筆記本

IPython筆記本在共同訓(xùn)練生物信息學(xué)時(shí)很有用。這些筆記最近被Nature News ( http://www.nature.com/news/interactive-notebooks-sharing-the-code-1.16261http://www.nature.com/news/programming-pick-up-python-1.16833)報(bào)道。

2.下載本次教程的數(shù)據(jù)

我們從NCBI Short Read Archives(SRA)下載HMP模擬宏基因組作為本次教程的開(kāi)端。NCBI的SRA中存儲(chǔ)了許多公開(kāi)的宏基因組。使用sratoolkit軟件是最簡(jiǎn)單的獲得SRA數(shù)據(jù)的方法。如果你知道你需要的SRA run ID(比如SRR172903),你可以用專(zhuān)門(mén)的程序下載該數(shù)據(jù)并轉(zhuǎn)為”fasta“或者”fastq"格式序列。

    wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.4.5-2/sratoolkit.2.4.5-2-ubuntu64.tar.gz

    tar -xvf sratoolkit.2.4.5-2ubuntu64.tar.gz

你現(xiàn)在使用ls命令可以發(fā)現(xiàn)多出來(lái)個(gè)包含軟件的文件夾。你同時(shí)在我們工作的notebook上看見(jiàn)該文件夾。

    ls

現(xiàn)在,我們可以使用安裝好的sratoolkit程序去下載HMP模擬數(shù)據(jù)庫(kù)的"fastq"格式了。(大概會(huì)花費(fèi)1到2分鐘。耐心在宏基因組的研究中很有必要,好消息就是你依靠“租用”的云服務(wù)器工作,不會(huì)占用你個(gè)人電腦內(nèi)存的運(yùn)算能力--這樣等待的過(guò)程中,你可以做自己的事。你會(huì)注意到有個(gè)“Kernel busy"會(huì)顯示在"登出"按鈕下方屏幕的右上角處。

    sratoolkit.2.4.5-2-ubuntu64/bin/fastq-dump SRR172903

3.質(zhì)量控制

有很多種方法可以去測(cè)定你組裝的序列數(shù)據(jù)的質(zhì)量。首先,你可以查看你測(cè)序reads的質(zhì)量分?jǐn)?shù),如果必要,你可以使用分?jǐn)?shù)不滿足的reads,之后進(jìn)行修剪。有大量的軟件可以進(jìn)行修剪,一些軟件還包含著很好的教程,包括FastX Toolkit(http://hannonlab.cshl.edu/fastx_toolkit/http://khmer-protocols.readthedocs.org/en/v0.8-1/metagenomics/1-quality.html),F(xiàn)astQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/http://ged.msu.edu/angus/tutorials-2013/short-read-quality-evaluation.html)與及Sickle(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/http://ged.msu.edu/angus/tutorials-2013/short-read-quality-evaluation.html)。

你之前下載的“fastq”格式的序列文件,其每個(gè)序列read由四行展示,我們做個(gè)快速的瀏覽:

    head -n 4 SRR172903.fastq

. 第一行(開(kāi)頭是“@SRR172903.1”)是read的標(biāo)識(shí)符,它通常是展示read的ID,測(cè)序儀器的一些關(guān)于如何獲取序列的信息。

. 第二行是DNA序列。

. 第三行的內(nèi)容以第一行相同,只是把"@"換成了"+",有時(shí)在部分?jǐn)?shù)據(jù)庫(kù)內(nèi)只有一個(gè)"+"。

. 第四行是DNA序列每個(gè)堿基對(duì)的質(zhì)量評(píng)分信息,注意該部分是與DNA序列長(zhǎng)度一致的,且該質(zhì)量得分是基于ASCII碼字符分?jǐn)?shù)(其具有測(cè)序技術(shù)確定偏移,Illumina目前的偏移是64,例如,ASCII編碼 64 = 0 Phred 得分)。質(zhì)量得分等于 -10*log(p), p是該堿基錯(cuò)誤的概率(比如,如果Q=20, p=0.01,就是有1%的幾率這個(gè)堿基是錯(cuò)誤的。

這次教程中,我們會(huì)將超過(guò)序列內(nèi)超過(guò)50%的堿基Phred得分低于33分的read移除。移除過(guò)程將用Fastx-Toolkit完成,該軟件可以進(jìn)行多種質(zhì)量控制(比如adapter剪切)。我們首先來(lái)下載,解壓和安裝這個(gè)軟件吧。

    wget https://github.com/agordon/fastx_toolkit/releases/download/0.0.14/fastx_toolkit-0.0.14.tar.bz2

    wget https://github.com/agordon/libgtextutils/releases/download/0.7/libgtextutils-0.7.tar.gz

    tar -xvf fastx_toolkit-0.0.14.tar.bz2

    tar -xvf libgtextutils-0.7.tar.gz

    bash fastx_install.sh

現(xiàn)在,我們可以開(kāi)始質(zhì)量過(guò)濾了,并將過(guò)濾后的文件儲(chǔ)存為SRR172903.qc.fastq。

FASTQ質(zhì)量控制

$ fastq_quality_filter -h usage: fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]

version 0.0.6

[-h] = This helpful help screen.

[-q N] = Minimum quality score to keep.

[-p N] = Minimum percent of bases that must have [-q] quality.

[-z] = Compress output with GZIP.

[-i INFILE] = FASTA/Q input file. default is STDIN.

[-o OUTFILE] = FASTA/Q output file. default is STDOUT.

[-v] = Verbose - report number of sequences.

If [-o] is specified, report will be printed to STDOUT.

If [-o] is not specified (and output goes to STDOUT),

report will be printed to STDERR.

    fastq_quality_filter -q 33 -p 50 -i SRR172903.fastq > SRR172903.qc.fastq

4.多樣化檢查---“都有誰(shuí)在”的分布情況

宏基因組測(cè)序的優(yōu)勢(shì)在于其無(wú)需微生物培養(yǎng)就能夠量化微生物在環(huán)境中分布的能力。通常大多數(shù)研究需要了解其分類(lèi)多樣性(尤其是對(duì)16s rRNA基因測(cè)序的研究中)。多樣性也能在宏基因組的特定序列模式的表示下被測(cè)定。比如,可以量化宏基因組中獨(dú)特的核苷酸k-mers。這些k-mers也能用作組裝宏基因組,重疊的k-mers被用于指出read應(yīng)該被連接在一起。k-mers的多樣性可以給你用來(lái)研究你樣本的多樣性。同時(shí),由于組裝對(duì)比中每一個(gè)k-mer需要與所有的k-mers進(jìn)行對(duì)比,所以大量的k-mers存在需要更多的計(jì)算機(jī)內(nèi)存。Miller等人對(duì)k-mers和組裝做了個(gè)很好的綜述。

(需要注意的是,16S rRNA擴(kuò)增子測(cè)序是一種靶向的方法,在本教程中默認(rèn)其不屬于宏基因組測(cè)序。鳥(niǎo)槍法宏基因組測(cè)序是將種群中全部細(xì)胞的DNA提取出來(lái)進(jìn)行測(cè)序。而靶向測(cè)序擴(kuò)增特點(diǎn)的基因座并獨(dú)立測(cè)序。Sharpton等人在宏基因組分析上有很好的綜述。)

現(xiàn)在我們需要做的是安裝khmer--它包括了一套khmer和pre-assembly工具。我們?cè)谶@里用于k-mer的計(jì)數(shù)。一旦你開(kāi)始運(yùn)行一下腳本,你能夠開(kāi)始使用khmer的許多工具了。

    ls

    bash khmer-install.sh

接下來(lái)的腳本包含在khmer包中,并可以估算數(shù)據(jù)集的k-mers的唯一總數(shù)。用該數(shù)據(jù)可以a.)明確宏基因組組成的多樣性,例如用于組裝的細(xì)菌基因組,b.)比較復(fù)數(shù)宏基因組之間的k-mer多樣性,c.)探討k長(zhǎng)度選擇對(duì)組裝的影響。

然后為了評(píng)估不同k值(17,21,25,29,33,37)的k-mers的唯一總數(shù),運(yùn)行下面的腳本。該腳本輸出唯一k-mers但也將將其保存在unique_count文件中。(該過(guò)程在一個(gè)大型服務(wù)器實(shí)例中大概耗時(shí)15分鐘,在超大型實(shí)例中耗時(shí)8-10分鐘。)

    python unique-kmers.py -R unique_count -k 17 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 21 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 25 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 29 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 33 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 37 SRR172903.qc.fastq

現(xiàn)在你可以看見(jiàn)這個(gè)文件,第一欄顯示k-mer長(zhǎng)度,第二欄顯示宏基因組中所要求的k長(zhǎng)度的數(shù)量。如果你有復(fù)數(shù)的基因組,你可以通過(guò)比如數(shù)據(jù)庫(kù)里的k-mers總數(shù)比較其多樣性。你可以使用命令“cat”來(lái)查看文件里的結(jié)果。

    cat unique_count

5.得到基因的覆蓋描述:我的宏基因組目前有哪些基因?

大多數(shù)的宏基因組分析需要評(píng)估參考基因的豐都(比如,來(lái)自基因組或者自己組裝的宏基因組)。本教程將覆蓋參考基因可以得到或不可以得到(需要de nove組裝)的兩種情況。

6.例子1--有可獲得的參考基因

對(duì)于模擬的HMP宏基因組,HMP已經(jīng)對(duì)用于模擬數(shù)據(jù)庫(kù)的被分離的基因組進(jìn)行過(guò)測(cè)序。這些基因組的列表可以在HMP網(wǎng)站上獲得,同時(shí)我們將他上傳到了github倉(cāng)庫(kù)---一個(gè)用來(lái)協(xié)作分享數(shù)據(jù)和代碼的工具。本次教程中用以下命令就可以下載該數(shù)據(jù)。

    cat ncbi_acc.txt

下面的命令用于下載上面那個(gè)列表中的每一個(gè)ID的基因組進(jìn)入一個(gè)叫“genomes"的字典。

    python fetch-genomes-fasta.py ncbi_acc.txt genomes

7.估計(jì)組裝contigs的豐度

為了評(píng)估你基因組里參考基因和基因組的表現(xiàn),你可以用mapping軟件將reads比對(duì)到參考基因上(比如,Bowtie2,BWA等等)。在本次教程中,我們將在我們的服務(wù)器上安裝并使用Bowtie2。我們之后會(huì)mapping我們的宏基因組到單參考基因組上(我們之前下下來(lái)的。)。

    wget http://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.5/bowtie2-2.2.5-linux-x86_64.zip

    unzip bowtie2-2.2.5-linux-x86_64.zip

我寫(xiě)一個(gè)的腳本能夠自動(dòng)將一系列read map到給與的參考基因上并輸出一個(gè)包含能夠被map上的reads數(shù)量的文件。為了使用該腳本,我們需要安裝samtools。samtools幫我們與一種超級(jí)壓縮文件samfile交互,該文件可以有效的從mapper中儲(chǔ)存mapped信息。

    apt-get install samtools

我們提供一個(gè)簡(jiǎn)單的操作過(guò)程來(lái)將reads map到參考基因組上。該過(guò)程操作如下述步驟:

.制作你的參考基因索引

.將你的reads map到你的參考基因索引中(用默認(rèn)的bowtie參數(shù))

.用Samtools評(píng)估你的read的map數(shù),沒(méi)有map上的數(shù),并且提供一個(gè)制表符分割文件,每行一個(gè)參考基因名和序列長(zhǎng)度,map上的read和未map上的read。

該過(guò)程大概花8到10分鐘。

    bash bowtie.sh genomes/NC_000913.2.fa SRR172903.qc.fastq

現(xiàn)在我們可以看看基因組NC_000913上map和沒(méi)有map到的read了。我們同時(shí)有了個(gè)文件可以展示參考基因名(第一列),參考基因長(zhǎng)度(第二列),map上的read(第三列)和未map上的read(最后一列)。你可以點(diǎn)擊這里查詢(xún)關(guān)于samtools的更多信息。

    cat reads-mapped.count.txt

    cat reads-unmapped.count.txt

如果你想要挑戰(zhàn)一下更難的任務(wù),你可以試試map這個(gè)宏基因組到基因組文件夾提供的所有參考基因組上。試試串聯(lián)所有基因組到一個(gè)文件夾里吧(命令是"cat genomes/*fa >> all-genomes.fa")并運(yùn)行對(duì)所有g(shù)enomes.fa運(yùn)行腳本,而不僅僅是對(duì)NC_000913.2.fa。

8.例子2--De novo組裝參考基因

HMP模擬宏基因組的組裝

組裝是將宏基因組里有望來(lái)自同一基因的reads的重復(fù)部分合并,使其成為一個(gè)較長(zhǎng)的,連續(xù)的序列(通常稱(chēng)之為一個(gè)contig)。其優(yōu)點(diǎn)是提供一個(gè)更長(zhǎng)的序列,使其能過(guò)在未來(lái)作為參考基因(之前未知的),減少分析的數(shù)據(jù)量,并提供一個(gè)不依賴(lài)過(guò)去知識(shí)的參考。

選擇使用什么組裝方式并不容易且存在爭(zhēng)議。請(qǐng)記住重要的一點(diǎn),組裝是對(duì)你的數(shù)據(jù)的公認(rèn)的假設(shè)表達(dá)。組裝本身只是第一步,接下來(lái)需要對(duì)其精確性和實(shí)用性進(jìn)行評(píng)估。對(duì)于大多數(shù)的組裝情況,需要將測(cè)序的reads和參數(shù)輸入組裝軟件。本次教程我們將使用2014年發(fā)布的Megahit(Li et al.,2015,https://github.com/voutcn/megahit)進(jìn)行組裝。Sharpton的綜述(Sharpton, 2014)同樣也介紹了許多很好的宏基因組組裝流程和方法。

為了減少所需的內(nèi)存,常常需要事前統(tǒng)一宏基因組中k-mers的分布。刪除無(wú)需組裝的額外信息和可能錯(cuò)誤的reads可以?xún)?yōu)化組裝(http://arxiv.org/abs/1203.4802)。這些腳本與教程你可以從 http://ged.msu.edu/angus/diginorm-2012/tutorial.html 中獲得。

本次教程中,我們使用Megahit組裝宏基因組,所以,讓我們先安裝megahit。

    bash install-megahit.sh

該過(guò)程大約15分鐘,然后我們會(huì)獲得一個(gè)叫做”megahit_assembly"的文件夾。你可以用在這里閱讀其參數(shù),比如 --memory是指定其可以使用的最大內(nèi)存。

    megahit/megahit --memory 10e9 -l 250 --k-max 81 -r SRR172903.qc.fastq --cpu-only -o megahit_assembly

為了看看這個(gè)組裝,讓我們?cè)谧罱Kcontigs所在的megahit_assembly.final.contigs.fa文件下運(yùn)行khmer組裝總程序。我們統(tǒng)計(jì)下contigs大于等于200bp的。

    python khmer/sandbox/assemstats3.py 200 megahit_assembly/final.contigs.fa

9.評(píng)估contigs豐都

當(dāng)組裝結(jié)束是,你有一組可以評(píng)估宏基因組豐都的參考contigs。評(píng)估方法與之前使用參考基因組的方法相同。

這些會(huì)花20分鐘。

    bash bowtie.sh megahit_assembly/final.contigs.fa SRR172903.qc.fastq

你可以如同將reads map到NCBI基因組一樣的查看下列map結(jié)果。

    cat reads-mapped.count.txt

    cat reads-unmapped.count.txt

    cat reads.by.contigs.txt

10.注釋組裝后的contigs

測(cè)序通常是來(lái)確定你樣品里的“who"和"what"。在我們的例子里,我們知道HMP模擬種群來(lái)源的一組基因組(我們?cè)谥跋螺d的。)。將未知序列與已知參考基因進(jìn)行對(duì)比的是最為流行的工具中的其中之一--The Basic Local Alignment Search Tool(BLAST)。為了明確我們的ontigs的來(lái)源,我們將組裝的contigs和HMP模擬種群的基因組進(jìn)行比對(duì)。

我們首先下載BLAST軟件。鑒于序列數(shù)據(jù)庫(kù)容量的不斷增加,也可以考慮使用目前在注釋中更有效率的新工具,比如Diamond(https://github.com/bbuchfink/diamond/, http://dx.doi.org/10.1038/nmeth.3176)。

    wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.30/ncbi-blast-2.2.30+-x64-linux.tar.gz

    tar -xvf ncbi-blast-2.2.30+-x64-linux.tar.gz

現(xiàn)在我們可以為BLAST做一個(gè)可搜索的數(shù)據(jù)庫(kù)了。首先,我們要把在基因組字典里的所有基因組連接到同一個(gè)文件里。

    cat genomes/*fa >> all-genomes.fa

    ncbi-blast-2.2.30+/bin/makeblastdb -in all-genomes.fa -dbtype nucl -out all-genomes

    ncbi-blast-2.2.30+/bin/blastn -db all-genomes -query megahit_assembly/final.contigs.fa -outfmt 6 -out contigs.x.all-genomes.blastnout

上面的命令比對(duì)了每一個(gè)query(每一個(gè)在組裝好的final.contings.fa文件里的序列)與每一個(gè)序列(比如all-genomes.fa中的基因組)。-outfmt告訴該程序?qū)⒔Y(jié)果以制表符格式存在 -out 的 contigs.x.all-genomes.blastnout 文件中。

讓我們瞧一眼這個(gè)文件的前10行。你會(huì)看見(jiàn)query(contig)和hit(genome)后的同一性百分比,對(duì)比長(zhǎng)度,錯(cuò)配計(jì)數(shù),間隙開(kāi)放計(jì)數(shù),query開(kāi)始位置,query結(jié)束位置,subject開(kāi)始位置,subject結(jié)束位置,E-值和比特得分。

    head -n 10 contigs.x.all-genomes.blastnout

根據(jù)你的研究問(wèn)題,對(duì)開(kāi)放閱讀框(ORFs)的注釋可能比對(duì)contigs序列的注釋更有意義。本次例子中,存在多個(gè)可以使用的ORF caller((e.g., FragGeneScan, http://nar.oxfordjournals.org/content/early/2010/08/29/nar.gkq747.abstract 和 Metagene, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1636498/)。我們可以用FragGeneScan從我們的contigs調(diào)用ORFs。首先依舊是按如下方式下載,安裝軟件,然后從我們的contigs中調(diào)用ORFs:

    wget http://downloads.sourceforge.net/project/fraggenescan/FragGeneScan1.19.tar.gz

    tar -xvf FragGeneScan1.19.tar.gz

    bash fraggenescan-install.sh

我們將在組裝的contigs上運(yùn)行FragGeneScan,假設(shè)它符合“完整”基因組序列的訓(xùn)練特征(在他們的文檔中,這等于完整的基因組序列或短序列讀數(shù)而沒(méi)有測(cè)序錯(cuò)誤)。

    FragGeneScan1.19/FragGeneScan -s megahit_assembly/final.contigs.fa -o final.contigs.orfs.fa -w 1 -t complete

ORFs調(diào)用后最終組成為一個(gè)FASTA文件,存在final.contigs.orfs.fa.faa(氨基酸)和final.contigs.orfs.fa.ffn(堿基)中,你可以根據(jù)以上contigs描述的數(shù)據(jù)對(duì)你選擇的數(shù)據(jù)庫(kù)進(jìn)行描述。

11.以后的事

現(xiàn)在你知道獲得以下信息的所有該知道的事了:

1,序列豐都信息:序列(比如contig)和豐都(比如,可map的read數(shù))

2,序列注釋信息:序列(比如contig)和NCBI基因組

你會(huì)注意到這與16S rRNA擴(kuò)增子分析相似,你可以在其中獲得OTU豐度表和OTU最佳命中注釋。對(duì)于宏基因組分析,得到這些信息你可以用于進(jìn)一步的分析和可視化軟件包,如R語(yǔ)言中的PhyloSeq包

譯者最后說(shuō)下

本文是我在學(xué)習(xí)宏基因組的過(guò)程中進(jìn)行翻譯的,所以有很多地方還有錯(cuò)誤,同時(shí)你們也會(huì)發(fā)現(xiàn)包括read,contig,map之類(lèi)的詞...我完全不知道它們的中文是什么呀,請(qǐng)大家原諒,如果發(fā)現(xiàn)有什么地方不對(duì)多多指教,在原文中,每一個(gè)linux腳本代碼前都有”!“,我學(xué)了那么久的linux,沒(méi)見(jiàn)過(guò)這樣的用法,我一開(kāi)始擔(dān)心是格式轉(zhuǎn)換問(wèn)題,所以我默默的刪去了,最后原文有寫(xiě)為什么加”!“,好像是Ipython notebook的內(nèi)置語(yǔ)法,我沒(méi)太搞清楚。這也是我blog的第一篇文章,以后看到關(guān)于腸道微生物,宏基因組,Python和R語(yǔ)言的好文章,或者有寫(xiě)什么總結(jié),會(huì)持續(xù)發(fā)在我的Git上的,emmmm....雖然我想看得人不會(huì)很多,但是還是寫(xiě)一下吧,如果有人看當(dāng)然更有動(dòng)力啦。啊哈哈哈哈哈~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,663評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,125評(píng)論 3 414
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 175,506評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 62,614評(píng)論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,402評(píng)論 6 404
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 54,934評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,021評(píng)論 3 440
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,168評(píng)論 0 287
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,690評(píng)論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,596評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,784評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,288評(píng)論 5 357
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,027評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,404評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,662評(píng)論 1 280
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,398評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,743評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容