2018-08-20 Metagenome分析教程

pic

前言

之前看panda姐的blog時(shí)，發(fā)現(xiàn)介紹了篇關(guān)于Metagenome的分析教程，剛好就想著試著翻譯下，作為我的第一篇文章，順帶練練我MarkDown語(yǔ)法的訓(xùn)煉吧。

Introduction

目前微生物學(xué)在宏基因組方面最大的挑戰(zhàn)是需要將宏基因組學(xué)和序列分析納入傳統(tǒng)微生物學(xué)的訓(xùn)練中。Sean Eddy(Howard Hughes醫(yī)學(xué)中心的計(jì)算機(jī)生物學(xué)家）非常6的對(duì)生物學(xué)上的高通量測(cè)序和其訓(xùn)練在他的keynote進(jìn)行了講解。

為了方便微生物學(xué)家組裝宏基因組，我們這次補(bǔ)充了如何評(píng)估宏基因組里參考序列（如，gene,contigs,等等）豐度的指導(dǎo)。我們的方法包括以下所有的參考1.可獲得的基因組參考 2.由宏基因組組裝來(lái)的。通常來(lái)說(shuō)，你想完成該指導(dǎo)，或者大多數(shù)的宏基因組組裝，需準(zhǔn)備以下東西：

1.可用的服務(wù)器。大多數(shù)宏基因組組裝需要的內(nèi)存是大多數(shù)研究人員的個(gè)人電腦達(dá)不到的。在本次講解中，我們建議您使用公開(kāi)的Amazon EC2樣本服務(wù)器，所有人經(jīng)過(guò)登記后都可以注冊(cè)。

2.一個(gè)宏基因組數(shù)據(jù)庫(kù)。我們本次講解選擇使用WGS數(shù)據(jù)庫(kù)的HMP MOCK種群，鑒于其的可使用性，合適的大小，以及參考基因的可獲得性。該數(shù)據(jù)庫(kù)是22種種類(lèi)，其基因被從自然界分離，合并并測(cè)序，而來(lái)的模擬宏基因組。

3.負(fù)責(zé)組裝，read mapping,和基因注釋的軟件，我們將會(huì)展示將這些軟件安裝在Ubuntu系統(tǒng)的服務(wù)器上。

0.和我們登陸同一個(gè)頁(yè)面

本次教程的第一步是提供了一面向所有用戶(hù)，無(wú)論你使用壽命電腦的可使用以下全部命令的服務(wù)器。為了達(dá)到這個(gè)目的，我們需要使用云計(jì)算。具體來(lái)說(shuō)，亞馬遜網(wǎng)絡(luò)服務(wù)彈性計(jì)算云。租用該網(wǎng)絡(luò)服務(wù)，你需要申請(qǐng)一個(gè)信用卡，并使用該信用卡付費(fèi)。該網(wǎng)絡(luò)服務(wù)收費(fèi)很合理。你完成該教程大約在四小時(shí)以?xún)?nèi)，花費(fèi)低于1美元。（譯者注：國(guó)內(nèi)可以使用阿里云或百度云完成該教程，注意，在校學(xué)生如果沒(méi)有接觸過(guò)Linux操作系統(tǒng)，可以先行購(gòu)買(mǎi)10元/月的學(xué)生優(yōu)惠對(duì)Linux命令與軟件安裝進(jìn)行學(xué)習(xí)，但是該服務(wù)器跑RNA-seq分析都跑不動(dòng)啊。）

當(dāng)你注冊(cè)好了亞馬遜網(wǎng)絡(luò)服務(wù)器，你需要按照網(wǎng)站說(shuō)明啟動(dòng)云“案例”或服務(wù)器。作為本次教學(xué)，我們建議你使用Data Science Toolbox。在運(yùn)行前有幾點(diǎn)需要注意（不用Amazon的話，以下意義不大）：

1.選擇"in the cloud"的運(yùn)行指導(dǎo)。

2.你可以使用任一AMI（系統(tǒng)映像），但我們建議你使用US EAST,ami-d1737bb8。（這個(gè)國(guó)內(nèi)的看看就好了。)

不要忘記Data Science Toolbox指導(dǎo)里的第二條規(guī)制：添加“自定義TCP規(guī)制”里端口為“8888”，源為“Anywhere"。

4.從頭至尾的完成到了step4后。當(dāng)你到達(dá)step5時(shí)，參考下文。

如果你用的是Mac或Linux操作系統(tǒng)登錄遠(yuǎn)程服務(wù)器出現(xiàn)問(wèn)題：

。檢查你的密鑰權(quán)限是否被更改（就是那個(gè)以*.pem結(jié)尾的那個(gè)）

。確定你在跑ssh命令遠(yuǎn)程登錄服務(wù)器和你的安全文件在同一個(gè)文件夾下。

當(dāng)你可以成功的跑類(lèi)似于以下命令時(shí)，你便可以成功登錄服務(wù)器（其中的名字和EC2地址是用你自己的）

    $ ssh -i MyKeyPair.pem ubuntu@ec2-XX-XX-XX-XXX.compute-1.amazonaws.com

此時(shí)你的命令行變?yōu)轭?lèi)似于如下所示：

ubantu@ip-10-181-106-120:

在運(yùn)行本教程前你還需要做幾件小事，

逐條復(fù)制粘貼以下命令在你的命令行中，并每條后用ENTER運(yùn)行：

    cd /mnt

    sudo git clone https://github.com/germs-lab/frontiers-review-2015.git

之后輸入下列命令行，并在提示出現(xiàn)后輸入筆記本密碼：

    dst setup base

之后再?gòu)?fù)制粘貼以下命令：

    sudo ipython notebook --profile=dst --notebook-dir=/mnt/frontiers-review-2015

這樣會(huì)為本次教程啟動(dòng)一個(gè)Ipython Notebook。離開(kāi)終端，打開(kāi)你的互聯(lián)網(wǎng)瀏覽器，最好是Google Chrome。你還需在上面登錄你的EC2實(shí)例的公共DNS地址，如"ec2-XX-XX-XX-XXX"。如果你不知道你的DNS地址，你可以隨時(shí)在你的AWS EC2控制板上查看。

在你的瀏覽器上，導(dǎo)航至https://ec2-XX-XX-XX-XXX:8888。幾乎所有瀏覽器都會(huì)提醒你這是個(gè)不安全的地址，不需要緊張。在Chrome瀏覽器上，你可以點(diǎn)擊“高級(jí)”選項(xiàng)，然后再點(diǎn)擊“繼續(xù)進(jìn)程”。然后輸入密碼（之前你輸入的筆記本密碼），然后你就愉快的看見(jiàn)一個(gè)包含著一個(gè)叫”frontiers-nb-2015“文件的筆記本了。

1.如何使用這個(gè)IPython筆記本

IPython筆記本在共同訓(xùn)練生物信息學(xué)時(shí)很有用。這些筆記最近被Nature News ( http://www.nature.com/news/interactive-notebooks-sharing-the-code-1.16261 和 http://www.nature.com/news/programming-pick-up-python-1.16833)報(bào)道。

2.下載本次教程的數(shù)據(jù)

我們從NCBI Short Read Archives(SRA)下載HMP模擬宏基因組作為本次教程的開(kāi)端。NCBI的SRA中存儲(chǔ)了許多公開(kāi)的宏基因組。使用sratoolkit軟件是最簡(jiǎn)單的獲得SRA數(shù)據(jù)的方法。如果你知道你需要的SRA run ID（比如SRR172903)，你可以用專(zhuān)門(mén)的程序下載該數(shù)據(jù)并轉(zhuǎn)為”fasta“或者”fastq"格式序列。

    wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.4.5-2/sratoolkit.2.4.5-2-ubuntu64.tar.gz

    tar -xvf sratoolkit.2.4.5-2ubuntu64.tar.gz

你現(xiàn)在使用ls命令可以發(fā)現(xiàn)多出來(lái)個(gè)包含軟件的文件夾。你同時(shí)在我們工作的notebook上看見(jiàn)該文件夾。

ls

現(xiàn)在，我們可以使用安裝好的sratoolkit程序去下載HMP模擬數(shù)據(jù)庫(kù)的"fastq"格式了。（大概會(huì)花費(fèi)1到2分鐘。耐心在宏基因組的研究中很有必要，好消息就是你依靠“租用”的云服務(wù)器工作，不會(huì)占用你個(gè)人電腦內(nèi)存的運(yùn)算能力--這樣等待的過(guò)程中，你可以做自己的事。你會(huì)注意到有個(gè)“Kernel busy"會(huì)顯示在"登出"按鈕下方屏幕的右上角處。

    sratoolkit.2.4.5-2-ubuntu64/bin/fastq-dump SRR172903

3.質(zhì)量控制

有很多種方法可以去測(cè)定你組裝的序列數(shù)據(jù)的質(zhì)量。首先，你可以查看你測(cè)序reads的質(zhì)量分?jǐn)?shù)，如果必要，你可以使用分?jǐn)?shù)不滿足的reads，之后進(jìn)行修剪。有大量的軟件可以進(jìn)行修剪，一些軟件還包含著很好的教程，包括FastX Toolkit(http://hannonlab.cshl.edu/fastx_toolkit/ 和 http://khmer-protocols.readthedocs.org/en/v0.8-1/metagenomics/1-quality.html)，F(xiàn)astQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 和 http://ged.msu.edu/angus/tutorials-2013/short-read-quality-evaluation.html)與及Sickle(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 和 http://ged.msu.edu/angus/tutorials-2013/short-read-quality-evaluation.html)。

你之前下載的“fastq”格式的序列文件，其每個(gè)序列read由四行展示，我們做個(gè)快速的瀏覽：

    head -n 4 SRR172903.fastq

. 第一行（開(kāi)頭是“@SRR172903.1”)是read的標(biāo)識(shí)符，它通常是展示read的ID，測(cè)序儀器的一些關(guān)于如何獲取序列的信息。

. 第二行是DNA序列。

. 第三行的內(nèi)容以第一行相同，只是把"@"換成了"+"，有時(shí)在部分?jǐn)?shù)據(jù)庫(kù)內(nèi)只有一個(gè)"+"。

. 第四行是DNA序列每個(gè)堿基對(duì)的質(zhì)量評(píng)分信息，注意該部分是與DNA序列長(zhǎng)度一致的，且該質(zhì)量得分是基于ASCII碼字符分?jǐn)?shù)（其具有測(cè)序技術(shù)確定偏移，Illumina目前的偏移是64，例如，ASCII編碼 64 = 0 Phred 得分）。質(zhì)量得分等于 -10*log(p), p是該堿基錯(cuò)誤的概率（比如，如果Q=20, p=0.01,就是有1%的幾率這個(gè)堿基是錯(cuò)誤的。

這次教程中，我們會(huì)將超過(guò)序列內(nèi)超過(guò)50%的堿基Phred得分低于33分的read移除。移除過(guò)程將用Fastx-Toolkit完成，該軟件可以進(jìn)行多種質(zhì)量控制（比如adapter剪切）。我們首先來(lái)下載，解壓和安裝這個(gè)軟件吧。

    wget https://github.com/agordon/fastx_toolkit/releases/download/0.0.14/fastx_toolkit-0.0.14.tar.bz2

    wget https://github.com/agordon/libgtextutils/releases/download/0.7/libgtextutils-0.7.tar.gz

    tar -xvf fastx_toolkit-0.0.14.tar.bz2

    tar -xvf libgtextutils-0.7.tar.gz

    bash fastx_install.sh

現(xiàn)在，我們可以開(kāi)始質(zhì)量過(guò)濾了，并將過(guò)濾后的文件儲(chǔ)存為SRR172903.qc.fastq。

FASTQ質(zhì)量控制

$ fastq_quality_filter -h usage: fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]

version 0.0.6

[-h] = This helpful help screen.

[-q N] = Minimum quality score to keep.

[-p N] = Minimum percent of bases that must have [-q] quality.

[-z] = Compress output with GZIP.

[-i INFILE] = FASTA/Q input file. default is STDIN.

[-o OUTFILE] = FASTA/Q output file. default is STDOUT.

[-v] = Verbose - report number of sequences.

If [-o] is specified, report will be printed to STDOUT.

If [-o] is not specified (and output goes to STDOUT),

report will be printed to STDERR.

    fastq_quality_filter -q 33 -p 50 -i SRR172903.fastq > SRR172903.qc.fastq

4.多樣化檢查---“都有誰(shuí)在”的分布情況

宏基因組測(cè)序的優(yōu)勢(shì)在于其無(wú)需微生物培養(yǎng)就能夠量化微生物在環(huán)境中分布的能力。通常大多數(shù)研究需要了解其分類(lèi)多樣性（尤其是對(duì)16s rRNA基因測(cè)序的研究中）。多樣性也能在宏基因組的特定序列模式的表示下被測(cè)定。比如，可以量化宏基因組中獨(dú)特的核苷酸k-mers。這些k-mers也能用作組裝宏基因組，重疊的k-mers被用于指出read應(yīng)該被連接在一起。k-mers的多樣性可以給你用來(lái)研究你樣本的多樣性。同時(shí)，由于組裝對(duì)比中每一個(gè)k-mer需要與所有的k-mers進(jìn)行對(duì)比，所以大量的k-mers存在需要更多的計(jì)算機(jī)內(nèi)存。Miller等人對(duì)k-mers和組裝做了個(gè)很好的綜述。

（需要注意的是，16S rRNA擴(kuò)增子測(cè)序是一種靶向的方法，在本教程中默認(rèn)其不屬于宏基因組測(cè)序。鳥(niǎo)槍法宏基因組測(cè)序是將種群中全部細(xì)胞的DNA提取出來(lái)進(jìn)行測(cè)序。而靶向測(cè)序擴(kuò)增特點(diǎn)的基因座并獨(dú)立測(cè)序。Sharpton等人在宏基因組分析上有很好的綜述。）

現(xiàn)在我們需要做的是安裝khmer--它包括了一套khmer和pre-assembly工具。我們?cè)谶@里用于k-mer的計(jì)數(shù)。一旦你開(kāi)始運(yùn)行一下腳本，你能夠開(kāi)始使用khmer的許多工具了。

    ls

    bash khmer-install.sh

接下來(lái)的腳本包含在khmer包中，并可以估算數(shù)據(jù)集的k-mers的唯一總數(shù)。用該數(shù)據(jù)可以a.)明確宏基因組組成的多樣性，例如用于組裝的細(xì)菌基因組，b.)比較復(fù)數(shù)宏基因組之間的k-mer多樣性，c.)探討k長(zhǎng)度選擇對(duì)組裝的影響。

然后為了評(píng)估不同k值（17，21，25，29，33，37）的k-mers的唯一總數(shù)，運(yùn)行下面的腳本。該腳本輸出唯一k-mers但也將將其保存在unique_count文件中。（該過(guò)程在一個(gè)大型服務(wù)器實(shí)例中大概耗時(shí)15分鐘，在超大型實(shí)例中耗時(shí)8-10分鐘。）

    python unique-kmers.py -R unique_count -k 17 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 21 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 25 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 29 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 33 SRR172903.qc.fastq

    python unique-kmers.py -R unique_count -k 37 SRR172903.qc.fastq

現(xiàn)在你可以看見(jiàn)這個(gè)文件，第一欄顯示k-mer長(zhǎng)度，第二欄顯示宏基因組中所要求的k長(zhǎng)度的數(shù)量。如果你有復(fù)數(shù)的基因組，你可以通過(guò)比如數(shù)據(jù)庫(kù)里的k-mers總數(shù)比較其多樣性。你可以使用命令“cat”來(lái)查看文件里的結(jié)果。

    cat unique_count

5.得到基因的覆蓋描述：我的宏基因組目前有哪些基因？

大多數(shù)的宏基因組分析需要評(píng)估參考基因的豐都（比如，來(lái)自基因組或者自己組裝的宏基因組）。本教程將覆蓋參考基因可以得到或不可以得到（需要de nove組裝）的兩種情況。

6.例子1--有可獲得的參考基因

對(duì)于模擬的HMP宏基因組，HMP已經(jīng)對(duì)用于模擬數(shù)據(jù)庫(kù)的被分離的基因組進(jìn)行過(guò)測(cè)序。這些基因組的列表可以在HMP網(wǎng)站上獲得，同時(shí)我們將他上傳到了github倉(cāng)庫(kù)---一個(gè)用來(lái)協(xié)作分享數(shù)據(jù)和代碼的工具。本次教程中用以下命令就可以下載該數(shù)據(jù)。

    cat ncbi_acc.txt

下面的命令用于下載上面那個(gè)列表中的每一個(gè)ID的基因組進(jìn)入一個(gè)叫“genomes"的字典。

    python fetch-genomes-fasta.py ncbi_acc.txt genomes

7.估計(jì)組裝contigs的豐度

為了評(píng)估你基因組里參考基因和基因組的表現(xiàn)，你可以用mapping軟件將reads比對(duì)到參考基因上（比如，Bowtie2,BWA等等）。在本次教程中，我們將在我們的服務(wù)器上安裝并使用Bowtie2。我們之后會(huì)mapping我們的宏基因組到單參考基因組上（我們之前下下來(lái)的。）。

    wget http://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.5/bowtie2-2.2.5-linux-x86_64.zip

    unzip bowtie2-2.2.5-linux-x86_64.zip

我寫(xiě)一個(gè)的腳本能夠自動(dòng)將一系列read map到給與的參考基因上并輸出一個(gè)包含能夠被map上的reads數(shù)量的文件。為了使用該腳本，我們需要安裝samtools。samtools幫我們與一種超級(jí)壓縮文件samfile交互，該文件可以有效的從mapper中儲(chǔ)存mapped信息。

    apt-get install samtools

我們提供一個(gè)簡(jiǎn)單的操作過(guò)程來(lái)將reads map到參考基因組上。該過(guò)程操作如下述步驟：

.制作你的參考基因索引

.將你的reads map到你的參考基因索引中（用默認(rèn)的bowtie參數(shù)）

.用Samtools評(píng)估你的read的map數(shù)，沒(méi)有map上的數(shù)，并且提供一個(gè)制表符分割文件，每行一個(gè)參考基因名和序列長(zhǎng)度，map上的read和未map上的read。

該過(guò)程大概花8到10分鐘。

    bash bowtie.sh genomes/NC_000913.2.fa SRR172903.qc.fastq

現(xiàn)在我們可以看看基因組NC_000913上map和沒(méi)有map到的read了。我們同時(shí)有了個(gè)文件可以展示參考基因名（第一列），參考基因長(zhǎng)度（第二列），map上的read(第三列）和未map上的read(最后一列）。你可以點(diǎn)擊這里查詢(xún)關(guān)于samtools的更多信息。

    cat reads-mapped.count.txt

    cat reads-unmapped.count.txt

如果你想要挑戰(zhàn)一下更難的任務(wù)，你可以試試map這個(gè)宏基因組到基因組文件夾提供的所有參考基因組上。試試串聯(lián)所有基因組到一個(gè)文件夾里吧（命令是"cat genomes/*fa >> all-genomes.fa"）并運(yùn)行對(duì)所有g(shù)enomes.fa運(yùn)行腳本，而不僅僅是對(duì)NC_000913.2.fa。

8.例子2--De novo組裝參考基因

HMP模擬宏基因組的組裝

組裝是將宏基因組里有望來(lái)自同一基因的reads的重復(fù)部分合并，使其成為一個(gè)較長(zhǎng)的，連續(xù)的序列（通常稱(chēng)之為一個(gè)contig）。其優(yōu)點(diǎn)是提供一個(gè)更長(zhǎng)的序列，使其能過(guò)在未來(lái)作為參考基因（之前未知的），減少分析的數(shù)據(jù)量，并提供一個(gè)不依賴(lài)過(guò)去知識(shí)的參考。

選擇使用什么組裝方式并不容易且存在爭(zhēng)議。請(qǐng)記住重要的一點(diǎn)，組裝是對(duì)你的數(shù)據(jù)的公認(rèn)的假設(shè)表達(dá)。組裝本身只是第一步，接下來(lái)需要對(duì)其精確性和實(shí)用性進(jìn)行評(píng)估。對(duì)于大多數(shù)的組裝情況，需要將測(cè)序的reads和參數(shù)輸入組裝軟件。本次教程我們將使用2014年發(fā)布的Megahit(Li et al.,2015,https://github.com/voutcn/megahit)進(jìn)行組裝。Sharpton的綜述(Sharpton, 2014)同樣也介紹了許多很好的宏基因組組裝流程和方法。

為了減少所需的內(nèi)存，常常需要事前統(tǒng)一宏基因組中k-mers的分布。刪除無(wú)需組裝的額外信息和可能錯(cuò)誤的reads可以?xún)?yōu)化組裝(http://arxiv.org/abs/1203.4802)。這些腳本與教程你可以從 http://ged.msu.edu/angus/diginorm-2012/tutorial.html 中獲得。

本次教程中，我們使用Megahit組裝宏基因組，所以，讓我們先安裝megahit。

    bash install-megahit.sh

該過(guò)程大約15分鐘，然后我們會(huì)獲得一個(gè)叫做”megahit_assembly"的文件夾。你可以用在這里閱讀其參數(shù)，比如 --memory是指定其可以使用的最大內(nèi)存。

    megahit/megahit --memory 10e9 -l 250 --k-max 81 -r SRR172903.qc.fastq --cpu-only -o megahit_assembly

為了看看這個(gè)組裝，讓我們?cè)谧罱Kcontigs所在的megahit_assembly.final.contigs.fa文件下運(yùn)行khmer組裝總程序。我們統(tǒng)計(jì)下contigs大于等于200bp的。

    python khmer/sandbox/assemstats3.py 200 megahit_assembly/final.contigs.fa

9.評(píng)估contigs豐都

當(dāng)組裝結(jié)束是，你有一組可以評(píng)估宏基因組豐都的參考contigs。評(píng)估方法與之前使用參考基因組的方法相同。

這些會(huì)花20分鐘。

    bash bowtie.sh megahit_assembly/final.contigs.fa SRR172903.qc.fastq

你可以如同將reads map到NCBI基因組一樣的查看下列map結(jié)果。

    cat reads-mapped.count.txt

    cat reads-unmapped.count.txt

    cat reads.by.contigs.txt

10.注釋組裝后的contigs

測(cè)序通常是來(lái)確定你樣品里的“who"和"what"。在我們的例子里，我們知道HMP模擬種群來(lái)源的一組基因組（我們?cè)谥跋螺d的。）。將未知序列與已知參考基因進(jìn)行對(duì)比的是最為流行的工具中的其中之一--The Basic Local Alignment Search Tool（BLAST)。為了明確我們的ontigs的來(lái)源，我們將組裝的contigs和HMP模擬種群的基因組進(jìn)行比對(duì)。

我們首先下載BLAST軟件。鑒于序列數(shù)據(jù)庫(kù)容量的不斷增加，也可以考慮使用目前在注釋中更有效率的新工具，比如Diamond(https://github.com/bbuchfink/diamond/, http://dx.doi.org/10.1038/nmeth.3176)。

    wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.30/ncbi-blast-2.2.30+-x64-linux.tar.gz

    tar -xvf ncbi-blast-2.2.30+-x64-linux.tar.gz

現(xiàn)在我們可以為BLAST做一個(gè)可搜索的數(shù)據(jù)庫(kù)了。首先，我們要把在基因組字典里的所有基因組連接到同一個(gè)文件里。

    cat genomes/*fa >> all-genomes.fa

    ncbi-blast-2.2.30+/bin/makeblastdb -in all-genomes.fa -dbtype nucl -out all-genomes

    ncbi-blast-2.2.30+/bin/blastn -db all-genomes -query megahit_assembly/final.contigs.fa -outfmt 6 -out contigs.x.all-genomes.blastnout

上面的命令比對(duì)了每一個(gè)query（每一個(gè)在組裝好的final.contings.fa文件里的序列）與每一個(gè)序列（比如all-genomes.fa中的基因組）。-outfmt告訴該程序?qū)⒔Y(jié)果以制表符格式存在 -out 的 contigs.x.all-genomes.blastnout 文件中。

讓我們瞧一眼這個(gè)文件的前10行。你會(huì)看見(jiàn)query(contig)和hit(genome)后的同一性百分比，對(duì)比長(zhǎng)度，錯(cuò)配計(jì)數(shù)，間隙開(kāi)放計(jì)數(shù)，query開(kāi)始位置，query結(jié)束位置，subject開(kāi)始位置，subject結(jié)束位置，E-值和比特得分。

    head -n 10 contigs.x.all-genomes.blastnout

根據(jù)你的研究問(wèn)題，對(duì)開(kāi)放閱讀框（ORFs)的注釋可能比對(duì)contigs序列的注釋更有意義。本次例子中，存在多個(gè)可以使用的ORF caller((e.g., FragGeneScan, http://nar.oxfordjournals.org/content/early/2010/08/29/nar.gkq747.abstract 和 Metagene, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1636498/)。我們可以用FragGeneScan從我們的contigs調(diào)用ORFs。首先依舊是按如下方式下載，安裝軟件，然后從我們的contigs中調(diào)用ORFs:

    wget http://downloads.sourceforge.net/project/fraggenescan/FragGeneScan1.19.tar.gz

    tar -xvf FragGeneScan1.19.tar.gz

    bash fraggenescan-install.sh

我們將在組裝的contigs上運(yùn)行FragGeneScan，假設(shè)它符合“完整”基因組序列的訓(xùn)練特征（在他們的文檔中，這等于完整的基因組序列或短序列讀數(shù)而沒(méi)有測(cè)序錯(cuò)誤）。

    FragGeneScan1.19/FragGeneScan -s megahit_assembly/final.contigs.fa -o final.contigs.orfs.fa -w 1 -t complete

ORFs調(diào)用后最終組成為一個(gè)FASTA文件，存在final.contigs.orfs.fa.faa（氨基酸）和final.contigs.orfs.fa.ffn（堿基）中，你可以根據(jù)以上contigs描述的數(shù)據(jù)對(duì)你選擇的數(shù)據(jù)庫(kù)進(jìn)行描述。

11.以后的事

現(xiàn)在你知道獲得以下信息的所有該知道的事了：

1，序列豐都信息：序列（比如contig)和豐都（比如，可map的read數(shù)）

2，序列注釋信息：序列（比如contig)和NCBI基因組

你會(huì)注意到這與16S rRNA擴(kuò)增子分析相似，你可以在其中獲得OTU豐度表和OTU最佳命中注釋。對(duì)于宏基因組分析，得到這些信息你可以用于進(jìn)一步的分析和可視化軟件包，如R語(yǔ)言中的PhyloSeq包。

譯者最后說(shuō)下

本文是我在學(xué)習(xí)宏基因組的過(guò)程中進(jìn)行翻譯的，所以有很多地方還有錯(cuò)誤，同時(shí)你們也會(huì)發(fā)現(xiàn)包括read,contig,map之類(lèi)的詞...我完全不知道它們的中文是什么呀，請(qǐng)大家原諒，如果發(fā)現(xiàn)有什么地方不對(duì)多多指教，在原文中，每一個(gè)linux腳本代碼前都有”！“，我學(xué)了那么久的linux，沒(méi)見(jiàn)過(guò)這樣的用法，我一開(kāi)始擔(dān)心是格式轉(zhuǎn)換問(wèn)題，所以我默默的刪去了，最后原文有寫(xiě)為什么加”！“，好像是Ipython notebook的內(nèi)置語(yǔ)法，我沒(méi)太搞清楚。這也是我blog的第一篇文章，以后看到關(guān)于腸道微生物，宏基因組，Python和R語(yǔ)言的好文章，或者有寫(xiě)什么總結(jié)，會(huì)持續(xù)發(fā)在我的Git上的，emmmm....雖然我想看得人不會(huì)很多，但是還是寫(xiě)一下吧，如果有人看當(dāng)然更有動(dòng)力啦。啊哈哈哈哈哈~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,663評(píng)論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,125評(píng)論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 175,506評(píng)論 0贊 373
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 62,614評(píng)論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,402評(píng)論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 54,934評(píng)論 1贊 321
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,021評(píng)論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 42,168評(píng)論 0贊 287
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,690評(píng)論 1贊 333
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,596評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,784評(píng)論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,288評(píng)論 5贊 357
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,027評(píng)論 3贊 347
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 34,404評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 35,662評(píng)論 1贊 280
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,398評(píng)論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,743評(píng)論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

2018-08-20 Metagenome分析教程

2018-08-20 Metagenome分析教程

前言

Introduction

0.和我們登陸同一個(gè)頁(yè)面

1.如何使用這個(gè)IPython筆記本

2.下載本次教程的數(shù)據(jù)

3.質(zhì)量控制

4.多樣化檢查---“都有誰(shuí)在”的分布情況

5.得到基因的覆蓋描述：我的宏基因組目前有哪些基因？

6.例子1--有可獲得的參考基因

7.估計(jì)組裝contigs的豐度

8.例子2--De novo組裝參考基因

HMP模擬宏基因組的組裝

9.評(píng)估contigs豐都

10.注釋組裝后的contigs

11.以后的事

譯者最后說(shuō)下

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

2018-08-20 Metagenome分析教程

前言

Introduction

0.和我們登陸同一個(gè)頁(yè)面

1.如何使用這個(gè)IPython筆記本

2.下載本次教程的數(shù)據(jù)

3.質(zhì)量控制

4.多樣化檢查---“都有誰(shuí)在”的分布情況

5.得到基因的覆蓋描述：我的宏基因組目前有哪些基因？

6.例子1--有可獲得的參考基因

7.估計(jì)組裝contigs的豐度

8.例子2--De novo組裝參考基因

HMP模擬宏基因組的組裝

9.評(píng)估contigs豐都

10.注釋組裝后的contigs

11.以后的事

譯者最后說(shuō)下

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频