TCGA數據挖掘(一):TCGAbiolinks包介紹

腫瘤基因組圖譜(TCGA)計劃是由美國National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年聯合啟動的項目,研究的癌癥類型從最開始的多形性成膠質細胞瘤(GBM)到現在為止共有39種,涉及29種癌癥器官,1萬多個腫瘤樣本,27萬多份文件,當然其項目也將于2017年接近尾聲。

網址:https://portal.gdc.cancer.gov/

對于腫瘤研究者來說,TCGA數據庫就是一個資源寶庫,里面有很多有價值的信息可以挖掘,關于TCGA數據挖掘的工具很多,包括在線工具和R包。這里我們主要是通過R語言進行挖掘,所以需要有一點R語言基礎。R語言快速入門可參考文章:R語言編程基礎第一篇:語法基礎。也可以自己找教程自學,網上教程很多,學習了R以后,我們就的真正的去了解TCGA數據庫,我們之前的文章:TCGA數據庫使用教程對該數據庫進行了詳細的介紹,不了解該數據庫的同學可以先了解網頁版的使用。

使用R語言挖掘TCGA數據,可以用的包很多,比如GDCRNATools包,以及之前我們介紹過的TCGA-Assembler包。在這里我們就不推薦使用這些包,我們只推薦本文要介紹的TCGAbiolinks包。這個包的功能很強大,學會了這個包幾乎就已經夠用,不用在學其他包。今天我們開始

第一講:TCGAbiolinks包背景知識介紹

TCGAbiolinks -一個用于TCGA數據綜合分析的R/BioConductor軟件包,能夠通過GDC Application Programming Interface (API)訪問 National Cancer Institute (NCI) Genomic Data Commons (GDC) ,來搜索、下載和準備相關數據,以便在R中進行分析。

1.TCGAbiolinks包的安裝

devtools::install_github(repo ="BioinformaticsFMRP/TCGAbiolinks")

也可以通過下面代碼安裝

# 當前R的版本是"3.6",對應的TCGAbiolinks版本是"3.7"or"3.8"if(!requireNamespace("BiocManager", quietly = TRUE))install.packages("BiocManager")BiocManager::install("TCGAbiolinks", version ="3.8")

安裝成功后就是加載包了,如果加載還需要某些包,就先安裝相應的包:

library(TCGAbiolinks)library(dplyr)library(DT)

2.參考文獻

文章中使用了該包,請引用:

Colaprico A, Silva TC, Olsen C, Garofano L, Cava C, Garolini D, Sabedot T, Malta TM, Pagnotta SM, Castiglioni I, Ceccarelli M, Bontempi G and Noushmehr H. "TCGAbiolinks: an R/Bioconductor package for integrative analysis of TCGA data." Nucleic acids research (2015): gkv1507.

此外,如果您使用ELMER分析,請引用:

Yao, L., Shen, H., Laird, P. W., Farnham, P. J., & Berman, B. P. "Inferring regulatory element landscapes and transcription factor networks from cancer methylomes." Genome Biol 16 (2015): 105.

Yao, Lijing, Benjamin P. Berman, and Peggy J. Farnham. "Demystifying the secret mission of enhancers: linking distal regulatory elements to target genes." Critical reviews in biochemistry and molecular biology 50.6 (2015): 550-573.

3.TCGA條碼(barcode)

TCGA條碼由一組標識符組成。每個都專門標識一個TCGA數據元素。有關元數據標識符如何組成條形碼的說明,請參見下圖:

更多TCGA barcode信息:

https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/

接觸和分析過TCGA數據的朋友肯定會經常處理TCGA barcode的前15位(有時12位),實際從上圖可以看出TCGA的barcode設計總共有28位之多。

每一個短橫杠銜接的都是含不同意義的序列,如下圖:

另外,將barcode的組成從層次結構(樹)來看,是這樣的:

可參考:

https://docs.gdc.cancer.gov/Encyclopedia/pages/images/TCGA-TCGAbarcode-080518-1750-4378.pdf

4.TCGAbiolinks可以使用兩種方法下載GDC數據:

client:此方法創建MANIFEST文件并使用?GDC Data Transfer Tool下載數據。此方法更可靠,但與api方法相比可能更慢。

api:此方法使用 GDC Application Programming Interface (API)下載數據。這將創建一個MANIFEST文件,并且下載的數據將是一個格式為tar.gz的壓縮文件。如果文件的大小和數量太大,這個tar.gz文件會太大導致下載失敗的可能性提高。為了解決這個問題,我們將使用files.per.chunk功能將文件拆分成多個小文件,例如,如果chunks.per.download等于10,我們將每個tar.gz分為10個小文件下載。

5.數據準備:SummarizedExperiment對象

使用 SummarizedExperiment package,我們可以從SummarizedExperiment對象中提取三個主要的數據矩陣。

colData(data):獲得樣本信息的矩陣,包括了從對應TCGA論文中獲得的臨床數據以及腫瘤亞型信息。

assay(data):獲得Assay信息的矩陣,就是每一個樣本中基因的表達量。

rowRanges(data):獲得特征(一般是指基因)信息的矩陣,包括特征的元數據,例如基因所在基因組范圍。

6.Summarized Experiment:注釋信息

使用GDCprepare函數時,會調用一個參數SummarizedExperiment,該參數決定了輸出類型為Summarized Experiment(默認選項)或數據框。為了創建一個Summarized Experiment對象,我們需要使用最新的基因組注釋文件進行數據注釋。比如:1)對于legacy數據(與hg19對齊的數據),TCGAbiolinks正在使用GRCh37.p13進行注釋;2)對于harmonized數據(與hg38對齊的數據),TCGAbiolinks正在使用GRCh38.p7 (May 2017)進行注釋。不幸的是,在GRCh38.p7 這樣的注釋文件更新后,比如一些基因縮寫名稱的改變/刪除、更改基因坐標等。這可能會導致一些TCGA數據的丟失。例如,如果基因被刪除,我們就不能再映射它了,那么在SummarizedExperiment中這些信息會丟失。如果設置SummarizedExperiment為FALSE,您將獲得未修改的數據,并需要您自己去注釋。此外,DNA甲基化數據并沒有更新。但是可以在這里找到最新的元數據:http://zwdzwd.github.io/InfiniumAnnotation

7.GDCquery()參數解析

TCGAbiolinks包的函數很多,但GDCquery()函數是必須要介紹的,其他函數介紹肯文末,我們后續用到也會做詳細的講解。

(1)project

可以使用getGDCprojects()$project_id得到各個癌種的項目id,總共有52個ID值。

(2)data.category

data.category總共有8種

可以使用TCGAbiolinks:::getProjectSummary(project)查看project中有哪些數據類型,如查詢"TCGA-LIHC",有7種數據類型,case_count為病人數,file_count為對應的文件數。要下載表達譜,可以設置data.category="Transcriptome Profiling"

(3)data.type

篩選要下載的文件的數據類型。沒有命令可以查看data.type里都有哪些數據類型, 但是根據官網連接,查看data.type有12種,但設置參數的時候不代表所有的project和data.category都對應12種。先在官網查看后再設置。

#下載rna-seq的counts數據data.type ="Gene Expression Quantification"#下載miRNA數據data.type ="miRNA Expression Quantification"#下載Copy Number Variation數據data.type ="Copy Number Segment"

(4)workflow.type

該數據類型有很多種,根據data.type的不同而不同,不同的數據類型,有其對應的參數可供選擇。比如Gene Expression Quantification數據類型下workflow.type 有4種類型分別為:

HTSeq - FPKM-UQ:FPKM上四分位數標準化值

HTSeq - FPKM:FPKM值/表達量值

HTSeq - Counts:原始count數

STAR - Counts

具體可在GDC官網查看

(5)legacy

這個參數主要是因為TCGA數據有兩個入口可以下載,GDC Legacy Archive 和 GDC Data Portal,區別主要是注釋參考基因組版本不同分別是:GDC Legacy Archive(hg19和GDC Data Portal(hg38)。參數默認為FALSE,下載GDC Data Portal(hg38)。這里建議是,下載轉錄組層面的數據使用hg38,下載DNA層面的數據使用hg19,因為比如做SNP分析的時候很多數據庫沒有hg38版本的數據,都是hg19的。

(6)access

數據開放和不開放,有兩個參數:controlled, open。

(7)platform

這里涉及到的平臺種類非常多,可以具體去官網看每種數據都有什么平臺的可以下載。這個參數可以省略不設置。

(8)file.type

主要是在GDC Legacy Archive下載數據的時候使用,可以參考官網說明。在GDC Data Portal下載數據,該參數省略不設置。

(9)barcode

A list of barcodes to filter the files to download。可以根據這個參數設置只下載某個樣本等。如:

barcode?=?c("TCGA-14-0736-02A-01R-2005-01","TCGA-06-0211-02A-02R-2005-01")

(10)experimental.strategy

兩個下載入口參數選擇:

GDC Data Portal:WXS, RNA-Seq, miRNA-Seq, Genotyping Array.

Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq

(11)sample.type

A sample type to filter the files to download,可以對樣本類型進行過濾下載。這里我要下載所有樣本類型數據,不設置。部分值選擇如下(全部可以查看官網):如sample.type = "Recurrent Solid Tumor"

關于其他函數及參數介紹可以閱讀官方文檔:http://www.bioconductor.org/packages/release/bioc/manuals/TCGAbiolinks/man/TCGAbiolinks.pdf

當然,后續教程中我們用到什么函數也會詳細的講解。

下一講預告:TCGAbiolinks下載TCGA數據

?

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,818評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,185評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,656評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,647評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,446評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,951評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,041評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,189評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,718評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,800評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,419評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,420評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,755評論 2 371

推薦閱讀更多精彩內容