腫瘤基因組圖譜(TCGA)計劃是由美國National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年聯合啟動的項目,研究的癌癥類型從最開始的多形性成膠質細胞瘤(GBM)到現在為止共有39種,涉及29種癌癥器官,1萬多個腫瘤樣本,27萬多份文件,當然其項目也將于2017年接近尾聲。
網址:https://portal.gdc.cancer.gov/
對于腫瘤研究者來說,TCGA數據庫就是一個資源寶庫,里面有很多有價值的信息可以挖掘,關于TCGA數據挖掘的工具很多,包括在線工具和R包。這里我們主要是通過R語言進行挖掘,所以需要有一點R語言基礎。R語言快速入門可參考文章:R語言編程基礎第一篇:語法基礎。也可以自己找教程自學,網上教程很多,學習了R以后,我們就的真正的去了解TCGA數據庫,我們之前的文章:TCGA數據庫使用教程對該數據庫進行了詳細的介紹,不了解該數據庫的同學可以先了解網頁版的使用。
使用R語言挖掘TCGA數據,可以用的包很多,比如GDCRNATools包,以及之前我們介紹過的TCGA-Assembler包。在這里我們就不推薦使用這些包,我們只推薦本文要介紹的TCGAbiolinks包。這個包的功能很強大,學會了這個包幾乎就已經夠用,不用在學其他包。今天我們開始
第一講:TCGAbiolinks包背景知識介紹
TCGAbiolinks -一個用于TCGA數據綜合分析的R/BioConductor軟件包,能夠通過GDC Application Programming Interface (API)訪問 National Cancer Institute (NCI) Genomic Data Commons (GDC) ,來搜索、下載和準備相關數據,以便在R中進行分析。
1.TCGAbiolinks包的安裝
devtools::install_github(repo ="BioinformaticsFMRP/TCGAbiolinks")
也可以通過下面代碼安裝
# 當前R的版本是"3.6",對應的TCGAbiolinks版本是"3.7"or"3.8"if(!requireNamespace("BiocManager", quietly = TRUE))install.packages("BiocManager")BiocManager::install("TCGAbiolinks", version ="3.8")
安裝成功后就是加載包了,如果加載還需要某些包,就先安裝相應的包:
library(TCGAbiolinks)library(dplyr)library(DT)
2.參考文獻
文章中使用了該包,請引用:
Colaprico A, Silva TC, Olsen C, Garofano L, Cava C, Garolini D, Sabedot T, Malta TM, Pagnotta SM, Castiglioni I, Ceccarelli M, Bontempi G and Noushmehr H. "TCGAbiolinks: an R/Bioconductor package for integrative analysis of TCGA data." Nucleic acids research (2015): gkv1507.
此外,如果您使用ELMER分析,請引用:
Yao, L., Shen, H., Laird, P. W., Farnham, P. J., & Berman, B. P. "Inferring regulatory element landscapes and transcription factor networks from cancer methylomes." Genome Biol 16 (2015): 105.
Yao, Lijing, Benjamin P. Berman, and Peggy J. Farnham. "Demystifying the secret mission of enhancers: linking distal regulatory elements to target genes." Critical reviews in biochemistry and molecular biology 50.6 (2015): 550-573.
3.TCGA條碼(barcode)
TCGA條碼由一組標識符組成。每個都專門標識一個TCGA數據元素。有關元數據標識符如何組成條形碼的說明,請參見下圖:
更多TCGA barcode信息:
https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/
接觸和分析過TCGA數據的朋友肯定會經常處理TCGA barcode的前15位(有時12位),實際從上圖可以看出TCGA的barcode設計總共有28位之多。
每一個短橫杠銜接的都是含不同意義的序列,如下圖:
另外,將barcode的組成從層次結構(樹)來看,是這樣的:
可參考:
https://docs.gdc.cancer.gov/Encyclopedia/pages/images/TCGA-TCGAbarcode-080518-1750-4378.pdf
4.TCGAbiolinks可以使用兩種方法下載GDC數據:
client:此方法創建MANIFEST文件并使用?GDC Data Transfer Tool下載數據。此方法更可靠,但與api方法相比可能更慢。
api:此方法使用 GDC Application Programming Interface (API)下載數據。這將創建一個MANIFEST文件,并且下載的數據將是一個格式為tar.gz的壓縮文件。如果文件的大小和數量太大,這個tar.gz文件會太大導致下載失敗的可能性提高。為了解決這個問題,我們將使用files.per.chunk功能將文件拆分成多個小文件,例如,如果chunks.per.download等于10,我們將每個tar.gz分為10個小文件下載。
5.數據準備:SummarizedExperiment對象
使用 SummarizedExperiment package,我們可以從SummarizedExperiment對象中提取三個主要的數據矩陣。
colData(data):獲得樣本信息的矩陣,包括了從對應TCGA論文中獲得的臨床數據以及腫瘤亞型信息。
assay(data):獲得Assay信息的矩陣,就是每一個樣本中基因的表達量。
rowRanges(data):獲得特征(一般是指基因)信息的矩陣,包括特征的元數據,例如基因所在基因組范圍。
6.Summarized Experiment:注釋信息
使用GDCprepare函數時,會調用一個參數SummarizedExperiment,該參數決定了輸出類型為Summarized Experiment(默認選項)或數據框。為了創建一個Summarized Experiment對象,我們需要使用最新的基因組注釋文件進行數據注釋。比如:1)對于legacy數據(與hg19對齊的數據),TCGAbiolinks正在使用GRCh37.p13進行注釋;2)對于harmonized數據(與hg38對齊的數據),TCGAbiolinks正在使用GRCh38.p7 (May 2017)進行注釋。不幸的是,在GRCh38.p7 這樣的注釋文件更新后,比如一些基因縮寫名稱的改變/刪除、更改基因坐標等。這可能會導致一些TCGA數據的丟失。例如,如果基因被刪除,我們就不能再映射它了,那么在SummarizedExperiment中這些信息會丟失。如果設置SummarizedExperiment為FALSE,您將獲得未修改的數據,并需要您自己去注釋。此外,DNA甲基化數據并沒有更新。但是可以在這里找到最新的元數據:http://zwdzwd.github.io/InfiniumAnnotation
7.GDCquery()參數解析
TCGAbiolinks包的函數很多,但GDCquery()函數是必須要介紹的,其他函數介紹肯文末,我們后續用到也會做詳細的講解。
(1)project
可以使用getGDCprojects()$project_id得到各個癌種的項目id,總共有52個ID值。
(2)data.category
data.category總共有8種
可以使用TCGAbiolinks:::getProjectSummary(project)查看project中有哪些數據類型,如查詢"TCGA-LIHC",有7種數據類型,case_count為病人數,file_count為對應的文件數。要下載表達譜,可以設置data.category="Transcriptome Profiling"
(3)data.type
篩選要下載的文件的數據類型。沒有命令可以查看data.type里都有哪些數據類型, 但是根據官網連接,查看data.type有12種,但設置參數的時候不代表所有的project和data.category都對應12種。先在官網查看后再設置。
#下載rna-seq的counts數據data.type ="Gene Expression Quantification"#下載miRNA數據data.type ="miRNA Expression Quantification"#下載Copy Number Variation數據data.type ="Copy Number Segment"
(4)workflow.type
該數據類型有很多種,根據data.type的不同而不同,不同的數據類型,有其對應的參數可供選擇。比如Gene Expression Quantification數據類型下workflow.type 有4種類型分別為:
HTSeq - FPKM-UQ:FPKM上四分位數標準化值
HTSeq - FPKM:FPKM值/表達量值
HTSeq - Counts:原始count數
STAR - Counts
具體可在GDC官網查看
(5)legacy
這個參數主要是因為TCGA數據有兩個入口可以下載,GDC Legacy Archive 和 GDC Data Portal,區別主要是注釋參考基因組版本不同分別是:GDC Legacy Archive(hg19和GDC Data Portal(hg38)。參數默認為FALSE,下載GDC Data Portal(hg38)。這里建議是,下載轉錄組層面的數據使用hg38,下載DNA層面的數據使用hg19,因為比如做SNP分析的時候很多數據庫沒有hg38版本的數據,都是hg19的。
(6)access
數據開放和不開放,有兩個參數:controlled, open。
(7)platform
這里涉及到的平臺種類非常多,可以具體去官網看每種數據都有什么平臺的可以下載。這個參數可以省略不設置。
(8)file.type
主要是在GDC Legacy Archive下載數據的時候使用,可以參考官網說明。在GDC Data Portal下載數據,該參數省略不設置。
(9)barcode
A list of barcodes to filter the files to download。可以根據這個參數設置只下載某個樣本等。如:
barcode?=?c("TCGA-14-0736-02A-01R-2005-01","TCGA-06-0211-02A-02R-2005-01")
(10)experimental.strategy
兩個下載入口參數選擇:
GDC Data Portal:WXS, RNA-Seq, miRNA-Seq, Genotyping Array.
Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq
(11)sample.type
A sample type to filter the files to download,可以對樣本類型進行過濾下載。這里我要下載所有樣本類型數據,不設置。部分值選擇如下(全部可以查看官網):如sample.type = "Recurrent Solid Tumor"
關于其他函數及參數介紹可以閱讀官方文檔:http://www.bioconductor.org/packages/release/bioc/manuals/TCGAbiolinks/man/TCGAbiolinks.pdf
當然,后續教程中我們用到什么函數也會詳細的講解。
下一講預告:TCGAbiolinks下載TCGA數據
?