轉自:https://mp.weixin.qq.com/s/Yt9HwCrvsz4gAkieTWYjRQ
最近在做人類的轉錄組分析,發現人類基因組的序列版本和注釋版本真的種類繁多,讓人眼花繚亂。怎么選?筆者查閱了一些資料,嘗試理理清楚,如有紕漏,還望指正。
太長不看版
- 強調可重復性和穩健-用RefGene;
- 希望得到更多的信息,進行更具探索性的研究,選用Ensembl版本。對于Ensembl,序列選擇
primary_assembly
,gtf/gff3選擇primary_assembly對應的.gtf(用chr_patch_hapl_scaff.gtf也無妨)
正文
下載人類基因組信息有三大去處,ensembl、RefSeq(NCBI)和UCSC。ensembl、RefSeq(NCBI)和UCSC下載的同一版本的DNA序列是一樣的,目前比較常用的有hg19、hg38、GRCh37、GRCh38,其中hg
系列是UCSC的叫法,GRCh
系列是NCBI和ENSEMBL的叫法。這些都屬于genome builds,也就是基因序列,同一版本的序列是一樣的(其中hg19對應GRCh37,hg38對應GRCh38),比如hg38和GRCh38的序列就是一樣的。同一系列,序號大的是序號小的升級版,比如GRCh38是GRCh37的更新版。
ensembl、RefSeq(NCBI)和UCSC下載的同一版本的DNA序列雖然是一樣的,但是它們的注釋是不同的,更新頻率也不一樣。NCBI 的注釋是“ refseq”數據集(UCSC 的”refGene” track), UCSC 和 ensemble 注釋都將其作為其中一個子集。而UCSC 的注釋比較混亂。同樣ID的基因會出現在不同鏈或不同染色體位置上。Ensembl的注釋通常比UCSC更多(所以噪音更多一點) ,但是它們的ID處理的比較好,不會像UCSC的那么混亂,因此,它們的 ID 通常更容易轉換成別的(例如,基因名稱、GO和pathway)。Ensembl還經常更新它的注釋,更新一次作為一個版本發布,因此可以方便地告訴別人你使用的版本,增強分析的可重復性。
Ensembl的注釋噪音多怎么理解呢?有哪些潛在的影響呢?
以ensembl release-74版本為例,盡管 其包含63,677個基因注釋條目,但只有22,810個條目(大約三分之一)是蛋白編碼基因。有17,057個條目是不同類型的 rna,包括 rRNA (566)、snoRNA (1549) 、snRNA (2067)、miRNA (3361) 、misc_rna (2174)和 lincRNA (7340)。ensemble還包含了15,583個假基因。對于大多數RNA-Seq 測序,一般只有富集和測序mRNAs,一般不會比對到諸如 miRNAs 或 lincRNAs 之類的RNA上。R74基因組包含819個經過逆轉錄產生的轉錄本,這些轉錄本是通過逆轉錄產生的,隨后又重新整合到基因組中,這些轉錄本通常是表達不活躍的。在這種情況下,mRNA產生的reads,尤其是junction reads,可能比對到甚至唯一比對到這種“處理過的轉錄本”上。因此,該基因的mRNA的真實表達量可能被低估了。使用更全面的注釋數據庫的另一個缺點是p值,因為原始p值的需要多重校驗。而多重校驗后的p值的大小主要取決于模型中基因的數量。如果感興趣的基因在不同的注釋中定義不一致,建議使用不同的基因注釋模型分析 RNA-Seq 的數據。
總的來說,可以遵循這么一個原則:當進行強調可重復性和穩健的基因表達估計的研究時(比如使用RNAseq來作為芯片分析的替代的時候),優先選較為簡單的基因組注釋,如 RefGene。但較為簡單的基因組注釋可能不利于識別或描述新的轉錄或調控機制。因此,當進行更具探索性的研究時,更全面的注釋更優,比如選擇Ensembl。而UCSC,emmmm不太建議使用。
而常用的比對軟件STAR的manual是這么建議的:使用注釋最全面的。
那假如我選擇了Ensembl,那么多種基因組序列又有什么區別?sm、rm有什么區別?alt、dna.toplevel、primary_assembly怎么選,對于gtf/gff3,以gtf為例,abinitio.gtf、chr.gtf、
chr_patch_hapl_scaff.gtf、gtf又該怎么選?
根據我的好友“面面的徐爺”的學習筆記:
首先根據組裝的不同分為:
- toplevel - Includes haplotype information (not sure how aligners deal with this)
- primary_assembly - Single reference base per position
其實根據對序列的處理不同分為:
- dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
- dna_rm - Repeats masked (converts repeats to to N’s)
- dna - No masking
結論1:選dna或者dna_ssm都可以,不選dna_rm。
標記重復的基因組會用N代替重復區域,而這就給后續的比對帶來很大的問題。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)雖然也標記出了參考基因組,但是以小寫的形式存在的,故對比對沒有影響。
結論2:選primary版本,不選toplevel。toplevel包含了單倍體型( haplotypes)和patch(補丁?不太理解是什么)的信息,而單倍體型的信息會使得比對軟件很難處理好。如果用BWA,那么使用toplevel會有好處,但如果使用STAR/hisat2/bowtie2/BBmap等,包含單倍體型信息會導致比對結果不準確。
來自比對軟件STAR的推薦:.dna.primary assembly。
選好了基因組,gtf/gff3的問題也迎刃而解——選擇對應的版本就好了。
.gtf: 默認文件,對應primary assembly.fa(This is the default file, it should contain the full annotation for all species except human and mouse. For human and mouse, it will contain all annotation on the primary assembly, ie excluding patch and haplotype regions. All species have one.)
.chr.gtf: Contains only annotation on chromosomes, so toplevel scaffolds are excluded (patch and haplotypes are not included).
.chr_patch_hapl_scaff:對應toplevel。(Contains all annotation on all toplevel sequences, including patch and haplotype regions. It should only exist for human and mouse)如果你用的是primary選這個gtf文件也沒什么關系,只是多了一些primary沒有的注釋信息而已。
.abinitio.gtf:基于.gtf增加了使用Genscan等工具得到的一些注釋信息(Additionally, we provide a GTF file containing the predicted gene set
as generated by Genscan and other abinitio prediction tools.
This file is identified by the abinitio extension.)
另外,需要注意的是不同的來源的基因組序列名稱不一樣,例如1號染色體,在 UCSC 中是 chr1,而在 Ensembl是1 ,因此不管你選擇哪個版本,在使用的時候,序列和注釋要統一(UCSC的基因組序列需要對應使用UCSC的gtf/gff3注釋文件,Ensembl則對應使用其同一版本對應的gtf/gff3注釋文件)。
參考資料
Po-Yen Wu, John H. Phan, and May D. Wang, “Assessing the Impact of Human Genome Annotation Choice on RNA-Seq Expression Estimates,” BMC Bioinformatics 14 Suppl 11 (2013): S8, https://doi.org/10.1186/1471-2105-14-S11-S8.
Shanrong Zhao and Baohong Zhang, “A Comprehensive Evaluation of Ensembl, RefSeq, and UCSC Annotations in the Context of RNA-Seq Read Mapping and Gene Quantification,” BMC Genomics 16, no. 1 (February 18, 2015), https://doi.org/10.1186/s12864-015-1308-8
hg19 (GRCh37) vs. hg38 (GRCh38) - DTL Data:http://www.doc88.com/p-9512305171300.html
biostars-Question: GRCh37/38(NCBI) vs hg19/hg38(UCSC):https://www.biostars.org/p/113100/
高通量測序數據處理學習記錄(零):NGS分析如何選擇合適的參考基因組和注釋文件:http://www.lxweimin.com/p/58decf8fb6d6
What Ensembl genome version should I use for alignments? (e.g. toplevel.fa vs. primary_assembly.fa):https://bioinformatics.stackexchange.com/questions/540/what-ensembl-genome-version-should-i-use-for-alignments-e-g-toplevel-fa-vs-p
ensembl release-84 gff3的README:ftp://ftp.ensembl.org/pub/release-84/gff3/homo_sapiens/README
Gencode最新版就是Ensembl上的默認注釋,它們都是EMBL-EBI家的