RNAseq分析如何選擇 參考基因組 和 gtf

轉自:https://mp.weixin.qq.com/s/Yt9HwCrvsz4gAkieTWYjRQ

最近在做人類的轉錄組分析,發現人類基因組的序列版本和注釋版本真的種類繁多,讓人眼花繚亂。怎么選?筆者查閱了一些資料,嘗試理理清楚,如有紕漏,還望指正。

太長不看版

  • 強調可重復性和穩健-用RefGene;
  • 希望得到更多的信息,進行更具探索性的研究,選用Ensembl版本。對于Ensembl,序列選擇primary_assembly,gtf/gff3選擇primary_assembly對應的.gtf(用chr_patch_hapl_scaff.gtf也無妨)

正文

下載人類基因組信息有三大去處,ensembl、RefSeq(NCBI)和UCSC。ensembl、RefSeq(NCBI)和UCSC下載的同一版本的DNA序列是一樣的,目前比較常用的有hg19、hg38、GRCh37、GRCh38,其中hg系列是UCSC的叫法,GRCh系列是NCBI和ENSEMBL的叫法。這些都屬于genome builds,也就是基因序列,同一版本的序列是一樣的(其中hg19對應GRCh37,hg38對應GRCh38),比如hg38和GRCh38的序列就是一樣的。同一系列,序號大的是序號小的升級版,比如GRCh38是GRCh37的更新版。

ensembl、RefSeq(NCBI)和UCSC下載的同一版本的DNA序列雖然是一樣的,但是它們的注釋是不同的,更新頻率也不一樣。NCBI 的注釋是“ refseq”數據集(UCSC 的”refGene” track), UCSC 和 ensemble 注釋都將其作為其中一個子集。而UCSC 的注釋比較混亂。同樣ID的基因會出現在不同鏈或不同染色體位置上。Ensembl的注釋通常比UCSC更多(所以噪音更多一點) ,但是它們的ID處理的比較好,不會像UCSC的那么混亂,因此,它們的 ID 通常更容易轉換成別的(例如,基因名稱、GO和pathway)。Ensembl還經常更新它的注釋,更新一次作為一個版本發布,因此可以方便地告訴別人你使用的版本,增強分析的可重復性。

Ensembl的注釋噪音多怎么理解呢?有哪些潛在的影響呢?
以ensembl release-74版本為例,盡管 其包含63,677個基因注釋條目,但只有22,810個條目(大約三分之一)是蛋白編碼基因。有17,057個條目是不同類型的 rna,包括 rRNA (566)、snoRNA (1549) 、snRNA (2067)、miRNA (3361) 、misc_rna (2174)和 lincRNA (7340)。ensemble還包含了15,583個假基因。對于大多數RNA-Seq 測序,一般只有富集和測序mRNAs,一般不會比對到諸如 miRNAs 或 lincRNAs 之類的RNA上。R74基因組包含819個經過逆轉錄產生的轉錄本,這些轉錄本是通過逆轉錄產生的,隨后又重新整合到基因組中,這些轉錄本通常是表達不活躍的。在這種情況下,mRNA產生的reads,尤其是junction reads,可能比對到甚至唯一比對到這種“處理過的轉錄本”上。因此,該基因的mRNA的真實表達量可能被低估了。使用更全面的注釋數據庫的另一個缺點是p值,因為原始p值的需要多重校驗。而多重校驗后的p值的大小主要取決于模型中基因的數量。如果感興趣的基因在不同的注釋中定義不一致,建議使用不同的基因注釋模型分析 RNA-Seq 的數據。

總的來說,可以遵循這么一個原則:當進行強調可重復性和穩健的基因表達估計的研究時(比如使用RNAseq來作為芯片分析的替代的時候),優先選較為簡單的基因組注釋,如 RefGene。但較為簡單的基因組注釋可能不利于識別或描述新的轉錄或調控機制。因此,當進行更具探索性的研究時,更全面的注釋更優,比如選擇Ensembl。而UCSC,emmmm不太建議使用。

而常用的比對軟件STAR的manual是這么建議的:使用注釋最全面的。

圖片

那假如我選擇了Ensembl,那么多種基因組序列又有什么區別?sm、rm有什么區別?alt、dna.toplevel、primary_assembly怎么選,對于gtf/gff3,以gtf為例,abinitio.gtf、chr.gtf、
chr_patch_hapl_scaff.gtf、gtf又該怎么選?

根據我的好友“面面的徐爺”的學習筆記:

首先根據組裝的不同分為:

  • toplevel - Includes haplotype information (not sure how aligners deal with this)
  • primary_assembly - Single reference base per position

其實根據對序列的處理不同分為:

  • dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
  • dna_rm - Repeats masked (converts repeats to to N’s)
  • dna - No masking

結論1:選dna或者dna_ssm都可以,不選dna_rm。

標記重復的基因組會用N代替重復區域,而這就給后續的比對帶來很大的問題。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)雖然也標記出了參考基因組,但是以小寫的形式存在的,故對比對沒有影響。

結論2:選primary版本,不選toplevel。toplevel包含了單倍體型( haplotypes)和patch(補丁?不太理解是什么)的信息,而單倍體型的信息會使得比對軟件很難處理好。如果用BWA,那么使用toplevel會有好處,但如果使用STAR/hisat2/bowtie2/BBmap等,包含單倍體型信息會導致比對結果不準確。

來自比對軟件STAR的推薦:.dna.primary assembly。

圖片

選好了基因組,gtf/gff3的問題也迎刃而解——選擇對應的版本就好了。

  • .gtf: 默認文件,對應primary assembly.fa(This is the default file, it should contain the full annotation for all species except human and mouse. For human and mouse, it will contain all annotation on the primary assembly, ie excluding patch and haplotype regions. All species have one.)

  • .chr.gtf: Contains only annotation on chromosomes, so toplevel scaffolds are excluded (patch and haplotypes are not included).

  • .chr_patch_hapl_scaff:對應toplevel。(Contains all annotation on all toplevel sequences, including patch and haplotype regions. It should only exist for human and mouse)如果你用的是primary選這個gtf文件也沒什么關系,只是多了一些primary沒有的注釋信息而已。

  • .abinitio.gtf:基于.gtf增加了使用Genscan等工具得到的一些注釋信息(Additionally, we provide a GTF file containing the predicted gene set
    as generated by Genscan and other abinitio prediction tools.
    This file is identified by the abinitio extension.)

另外,需要注意的是不同的來源的基因組序列名稱不一樣,例如1號染色體,在 UCSC 中是 chr1,而在 Ensembl是1 ,因此不管你選擇哪個版本,在使用的時候,序列和注釋要統一(UCSC的基因組序列需要對應使用UCSC的gtf/gff3注釋文件,Ensembl則對應使用其同一版本對應的gtf/gff3注釋文件)。

參考資料

Gencode最新版就是Ensembl上的默認注釋,它們都是EMBL-EBI家的

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,208評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,746評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,666評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,477評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,960評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,200評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,726評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,617評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,807評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,049評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,425評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,674評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,432評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,769評論 2 372

推薦閱讀更多精彩內容