TCGA數據下載,TCGAbiolinks(搬運)

轉自 TCGA數據下載—TCGAbiolinks包參數詳解

原創 hls 組學大講堂 2019-10-22

Install tcgabiolink

if(!requireNamespace("BiocManager",quietly=TRUE)){

install.packages("BiocManager")

}

options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")

BiocManager::install("TCGAbiolinks")

TCGAbiolink-Download

1.GDCquery()? #查詢data

2.getResults()? #下載data

3.GDCprepare() #整理data

##說明書http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html

GDCquery參數

1.Project

getGDCprojects()$project_id ,獲取TCGA 中最新的不同癌的項目號

2.data.category

TCGAbiolinks:::getProjectSummary(project)查看project中有哪些數據類型,如查詢"TCGA-ACC",

exsample:

TCGAbiolinks:::getProjectSummary('TCGA-ESCA')

TCGAbiolinks:::getProjectSummary('TCGA-ESCA')$file_count[1] 5657

$data_categories? file_count case_count? ? ? ? ? ? ? data_category1? ? ? ? 919? ? ? ? 184? ? Transcriptome Profiling2? ? ? 1486? ? ? ? 184 Simple Nucleotide Variation3? ? ? ? 962? ? ? ? 185? ? ? ? ? ? ? ? Biospecimen4? ? ? ? 207? ? ? ? 185? ? ? ? ? ? ? ? ? ? Clinical5? ? ? ? 202? ? ? ? 185? ? ? ? ? ? DNA Methylation6? ? ? 1115? ? ? ? 185? ? ? Copy Number Variation7? ? ? ? 766? ? ? ? 185? ? ? ? ? ? Sequencing Reads

$case_count[1] 185

$file_size[1] 8.198261e+12

3.data.type

參數受到熵一個參數的影響,不同的data.category,會有不同的data.type

4.Workflow.type

這個參數受到上兩個參數的影響,不同的data.category和不同的data.type,會有不同的workflow.type,如下表所示:https://www.omicsclass.com/article/1059

legacy這個參數主要是設置TCGA數據有兩不同入口可以下載,GDC Legacy Archive 和 GDC Data Portal,以下是官方的解釋兩種數據Legacy or Harmonized區別:大致意思為:Legacy 數據hg19和hg18為參考基因組(老數據)而且已經不再更新了,Harmonized數據以hg38為參考基因組的數據(新數據),現在一般選擇Harmonized。可以設置為TRUE或者FALSE:

access

Filter by access type. Possible values: controlled, open,篩選數據是否開放,這個一般不用設置,不開放的數據也沒必要了,所以都設置成:access=“open"

7.platform

涉及到數據來源的平臺,如芯片數據,甲基化數據等等平臺的篩選,一般不做設置,除非要篩選特定平臺的數據:

8. file.type

如果是在GDC Legacy Archive(legacy=TRUE)下載數據的時候使用,可以參考官網說明:http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html

如果在GDC Data Portal,這個參數不用設置

9. barcode

A list of barcodes to filter the files to download,可以指定要下載的樣品,例如:

barcode =c"TCGA-14-0736-02A-01R-2005-01""TCGA-06-0211-02A-02R-2005-01"

10. data.format

可以設置的選項為不同格式的文件:("VCF", "TXT", "BAM","SVS","BCR XML","BCR SSF XML", "TSV", "BCR Auxiliary XML", "BCR OMF XML", "BCR Biotab", "MAF", "BCR PPS XML",? "XLSX"),通常情況下不用設置,默認就行;

11. experimental.strategy

用于過濾不同的實驗方法得到的數據:

Harmonized: WXS, RNA-Seq, miRNA-Seq, Genotyping Array.

Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq

12. sample.type

對樣本的類型進行過濾,例如,原發癌組織,復發癌等等;

學習完成了所有的參數,這里也有舉例使用:

query <- GDCquery(project = "TCGA-ACC",

? ? ? ? ? ? ? ?? data.category = "Copy Number Variation",

? ? ? ? ? ? ? ?? data.type = "Copy Number Segment")

## Not run:

query <- GDCquery(project = "TARGET-AML",

? ? ? ? ? ? ? ?? data.category = "Transcriptome Profiling",

? ? ? ? ? ? ? ?? data.type = "miRNA Expression Quantification",

? ? ? ? ? ? ? ?? workflow.type = "BCGSC miRNA Profiling",

? ? ? ? ? ? ? ?? barcode = c("TARGET-20-PARUDL-03A-01R","TARGET-20-PASRRB-03A-01R"))

query <- GDCquery(project = "TARGET-AML",

? ? ? ? ? ? ? ?? data.category = "Transcriptome Profiling",

? ? ? ? ? ? ? ?? data.type = "Gene Expression Quantification",

? ? ? ? ? ? ? ?? workflow.type = "HTSeq - Counts",

? ? ? ? ? ? ? ?? barcode = c("TARGET-20-PADZCG-04A-01R","TARGET-20-PARJCR-09A-01R"))

query <- GDCquery(project = "TCGA-ACC",

? ? ? ? ? ? ? ?? data.category =? "Copy Number Variation",

? ? ? ? ? ? ? ?? data.type = "Masked Copy Number Segment",

? ? ? ? ? ? ? ?? sample.type = c("Primary solid Tumor"))

query.met <- GDCquery(project = c("TCGA-GBM","TCGA-LGG"),

? ? ? ? ? ? ? ? ? ?? legacy = TRUE,

? ? ? ? ? ? ? ? ? ?? data.category = "DNA methylation",

? ? ? ? ? ? ? ? ? ?? platform = "Illumina Human Methylation 450")

query <- GDCquery(project = "TCGA-ACC",

? ? ? ? ? ? ? ?? data.category =? "Copy number variation",

? ? ? ? ? ? ? ?? legacy = TRUE,

? ? ? ? ? ? ? ?? file.type = "hg19.seg",

? ? ? ? ? ? ? ?? barcode = c("TCGA-OR-A5LR-01A-11D-A29H-01"))

下載數據? GDCdownload()

上面的GDCquery()命令完成之后我們就可以用GDCdownload()函數下載數據了,如果數據很多,如果中間中斷可以重復運行GDCdownload()函數繼續下載,直到所有的數據下載完成,使用舉例如下:

query <-GDCquery(project = "TCGA-GBM",

? ? ? ? ? ? ? ? ? ? ? ? ? data.category = "Gene expression",

? ? ? ? ? ? ? ? ? ? ? ? ? data.type = "Gene expression quantification",

? ? ? ? ? ? ? ? ? ? ? ? ? platform = "Illumina HiSeq",

? ? ? ? ? ? ? ? ? ? ? ? ? file.type? = "normalized_results",

? ? ? ? ? ? ? ? ? ? ? ? ? experimental.strategy = "RNA-Seq",

? ? ? ? ? ? ? ? ? ? ? ? ? barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01"),

? ? ? ? ? ? ? ? ? ? ? ? ? legacy = TRUE)

GDCdownload(query, method = "client", files.per.chunk = 10, directory="D:/data")

具體參數說明如下,主要設置的參數:query,為GDCquery查詢的結果,files.per.chunk = 10,設置同時下載的數量,如果網速慢建議設置的小一些, directory="D:/data" 數據存儲的路徑;

整理數據? GDCprepare()

GDCprepare可以自動的幫我們獲得基因表達數據:

data <- GDCprepare(query = query,

? ? ? ? ? ? ? ? ? save = TRUE,

? ? ? ? ? ? ? ? ? directory =? "D:/data", ? #注意和GDCdownload設置的路徑一致GDCprepare才可以找到下載的數據然后去處理。 ? ?

? ? ? ? ? ? ? ? ? save.filename = "GBM.RData") ? #存儲一下,方便下載直接讀取

獲得了data數據之后,就可以往下進行數據挖掘了。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,797評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,179評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,628評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,642評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,444評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,948評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,040評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,185評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,717評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,794評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,418評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,414評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,750評論 2 370

推薦閱讀更多精彩內容