前言
現有比對工具在做mapping之前,都需要下載對應物種的參考基因組做index,而如何選擇合適的參考基因組是一件非常重要的事情。
現有的參考基因組存儲網站三個:
ENSEMBL
UCSC
NCBI
UCSC 的命名是hg/mm系列,之前最常用的就是hg19參考基因組了。
ENSEMBL的命名規則則是采用GRCh/m的方式,GRCh37對應hg19,hg38對應GRCh38。
現階段的話,我個人比較推崇從ENSEMBL上下載參考基因組和注釋文件,以homo sapiens為例,https://asia.ensembl.org/Homo_sapiens/Info/Index可以查看現有的基因版本和一些配套的信息。
FTP地址為:ftp://ftp.ensembl.org/pub/release-92/,直接可以在目錄下download fasta文件和gtf文件,選擇對應的種屬即可。
fasta文件
ENSEMBL會存儲在多種形式fasta文件:
首先根據組裝的不同分為:
- .toplevel - Includes haplotype information (not sure how aligners deal with this)
- .primary_assembly - Single reference base per position
其實根據對序列的處理不同分為:
- dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
- dna_rm - Repeats masked (converts repeats to to N's)
- dna - No masking
GTF文件
ftp://ftp.ensembl.org/pub/release-92/gtf/ 這個網址包含了常見物種的GTF文件,以homo sapiens為例,
命名規則為:
The files are consistently named following this pattern: <species>.<assembly>.<version>.gtf.gz
# 需要注意的是,.abinitio后綴的GTF文件包括了Genscan和其他工具預測得到的注釋信息,會全面一些。
For the predicted gene set, an additional abinitio flag is added to the name file.
但是我自己選擇的話,我傾向于使用Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz,因為在比對的時候fasta文件里面是帶有scaffold的信息的。
這邊我就不帶大家熟悉GTF的格式了。
需要注意,GENCODE 上的GTF文件和ENSEMBL的GTF文件的第一列是不一樣的,GENCODE的chr1在ENSEMBL上就是1。其余的地方是一樣的(針對human & mouse而言)。
問題
在比對的時候,我該選用哪一個類型的fasta文件呢?
當然根據分析目的有不同選擇,這個時候你需要問自己幾個問題。
Repeat Masking
在NGS處理過程中,事實上我們并不需要使用一個標記重復區域的基因組。標記重復的基因組會用N代替重復區域,而這就給后續的比對帶來很大的問題,所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的參考基因組。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)雖然也標記出了參考基因組,但是以小寫的形式存在的,故對比對沒有影響。
這個問題問完了,dna_rm - Repeats masked出局,余下兩者進入下一個問題。
Primary or Toplevel?
簡單的回答就是說請選擇的primary版本,因為toplevel版本會包含haplotype信息,多余的信息會增加比對工具的工作,所以這里選擇primary就可以完成你的工作。
多出來的chr_unkonw.....的信息是啥?
這是在構建基因組時已知存在于基因組內但是不知道位于哪條染色體上,隨著注釋工作的進展這些未知基因會越來越少。
結語
一些需要注意的小tips:
在下載完成后,別忘了去check一下md5
下載同一版本的fasta和gtf文件
保險考慮,不要使用一些比對工具建立好的Index,自己index一下也沒多久。
以下為高通量測序數據處理系列快速通道:
高通量測序數據處理學習記錄(零):NGS分析如何選擇合適的參考基因組和注釋文件
高通量測序數據處理學習記錄(二):Read Counts的提取
高通量測序數據處理學習記錄(三):Pathway Analysis及GSEA
高通量測序數據處理學習記錄(四):DeepTools學習筆記