TCGA數據下載，TCGAbiolinks(搬運)

轉自 TCGA數據下載—TCGAbiolinks包參數詳解

原創 hls 組學大講堂 2019-10-22

Install tcgabiolink

if(!requireNamespace("BiocManager",quietly=TRUE)){

install.packages("BiocManager")

}

options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")

BiocManager::install("TCGAbiolinks")

TCGAbiolink-Download

1.GDCquery()? #查詢data

2.getResults()? #下載data

3.GDCprepare() #整理data

##說明書http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html

GDCquery參數

1.Project

getGDCprojects()$project_id ,獲取TCGA 中最新的不同癌的項目號

2.data.category

TCGAbiolinks:::getProjectSummary(project)查看project中有哪些數據類型，如查詢"TCGA-ACC"，

exsample:

TCGAbiolinks:::getProjectSummary('TCGA-ESCA')

TCGAbiolinks:::getProjectSummary('TCGA-ESCA')$file_count[1] 5657

$data_categories? file_count case_count? ? ? ? ? ? ? data_category1? ? ? ? 919? ? ? ? 184? ? Transcriptome Profiling2? ? ? 1486? ? ? ? 184 Simple Nucleotide Variation3? ? ? ? 962? ? ? ? 185? ? ? ? ? ? ? ? Biospecimen4? ? ? ? 207? ? ? ? 185? ? ? ? ? ? ? ? ? ? Clinical5? ? ? ? 202? ? ? ? 185? ? ? ? ? ? DNA Methylation6? ? ? 1115? ? ? ? 185? ? ? Copy Number Variation7? ? ? ? 766? ? ? ? 185? ? ? ? ? ? Sequencing Reads

$case_count[1] 185

$file_size[1] 8.198261e+12

3.data.type

參數受到熵一個參數的影響，不同的data.category，會有不同的data.type

4.Workflow.type

這個參數受到上兩個參數的影響，不同的data.category和不同的data.type，會有不同的workflow.type，如下表所示：https://www.omicsclass.com/article/1059

legacy這個參數主要是設置TCGA數據有兩不同入口可以下載，GDC Legacy Archive 和 GDC Data Portal，以下是官方的解釋兩種數據Legacy or Harmonized區別：大致意思為：Legacy 數據hg19和hg18為參考基因組（老數據）而且已經不再更新了，Harmonized數據以hg38為參考基因組的數據（新數據），現在一般選擇Harmonized。可以設置為TRUE或者FALSE：

access

Filter by access type. Possible values: controlled, open，篩選數據是否開放，這個一般不用設置，不開放的數據也沒必要了，所以都設置成：access=“open"

7.platform

涉及到數據來源的平臺，如芯片數據，甲基化數據等等平臺的篩選，一般不做設置，除非要篩選特定平臺的數據：

8. file.type

如果是在GDC Legacy Archive（legacy=TRUE）下載數據的時候使用，可以參考官網說明：http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html

如果在GDC Data Portal，這個參數不用設置

9. barcode

A list of barcodes to filter the files to download，可以指定要下載的樣品，例如：

barcode =c"TCGA-14-0736-02A-01R-2005-01""TCGA-06-0211-02A-02R-2005-01"

10. data.format

可以設置的選項為不同格式的文件：("VCF", "TXT", "BAM","SVS","BCR XML","BCR SSF XML", "TSV", "BCR Auxiliary XML", "BCR OMF XML", "BCR Biotab", "MAF", "BCR PPS XML",? "XLSX")，通常情況下不用設置，默認就行；

11. experimental.strategy

用于過濾不同的實驗方法得到的數據：

Harmonized: WXS, RNA-Seq, miRNA-Seq, Genotyping Array.

Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq

12. sample.type

對樣本的類型進行過濾，例如，原發癌組織，復發癌等等；

學習完成了所有的參數，這里也有舉例使用：

query <- GDCquery(project = "TCGA-ACC",

? ? ? ? ? ? ? ?? data.category = "Copy Number Variation",

? ? ? ? ? ? ? ?? data.type = "Copy Number Segment")

## Not run:

query <- GDCquery(project = "TARGET-AML",

? ? ? ? ? ? ? ?? data.category = "Transcriptome Profiling",

? ? ? ? ? ? ? ?? data.type = "miRNA Expression Quantification",

? ? ? ? ? ? ? ?? workflow.type = "BCGSC miRNA Profiling",

? ? ? ? ? ? ? ?? barcode = c("TARGET-20-PARUDL-03A-01R","TARGET-20-PASRRB-03A-01R"))

query <- GDCquery(project = "TARGET-AML",

? ? ? ? ? ? ? ?? data.category = "Transcriptome Profiling",

? ? ? ? ? ? ? ?? data.type = "Gene Expression Quantification",

? ? ? ? ? ? ? ?? workflow.type = "HTSeq - Counts",

? ? ? ? ? ? ? ?? barcode = c("TARGET-20-PADZCG-04A-01R","TARGET-20-PARJCR-09A-01R"))

query <- GDCquery(project = "TCGA-ACC",

? ? ? ? ? ? ? ?? data.category =? "Copy Number Variation",

? ? ? ? ? ? ? ?? data.type = "Masked Copy Number Segment",

? ? ? ? ? ? ? ?? sample.type = c("Primary solid Tumor"))

query.met <- GDCquery(project = c("TCGA-GBM","TCGA-LGG"),

? ? ? ? ? ? ? ? ? ?? legacy = TRUE,

? ? ? ? ? ? ? ? ? ?? data.category = "DNA methylation",

? ? ? ? ? ? ? ? ? ?? platform = "Illumina Human Methylation 450")

query <- GDCquery(project = "TCGA-ACC",

? ? ? ? ? ? ? ?? data.category =? "Copy number variation",

? ? ? ? ? ? ? ?? legacy = TRUE,

? ? ? ? ? ? ? ?? file.type = "hg19.seg",

? ? ? ? ? ? ? ?? barcode = c("TCGA-OR-A5LR-01A-11D-A29H-01"))

下載數據? GDCdownload()

上面的GDCquery()命令完成之后我們就可以用GDCdownload()函數下載數據了，如果數據很多，如果中間中斷可以重復運行GDCdownload()函數繼續下載，直到所有的數據下載完成，使用舉例如下：

query <-GDCquery(project = "TCGA-GBM",

? ? ? ? ? ? ? ? ? ? ? ? ? data.category = "Gene expression",

? ? ? ? ? ? ? ? ? ? ? ? ? data.type = "Gene expression quantification",

? ? ? ? ? ? ? ? ? ? ? ? ? platform = "Illumina HiSeq",

? ? ? ? ? ? ? ? ? ? ? ? ? file.type? = "normalized_results",

? ? ? ? ? ? ? ? ? ? ? ? ? experimental.strategy = "RNA-Seq",

? ? ? ? ? ? ? ? ? ? ? ? ? barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01"),

? ? ? ? ? ? ? ? ? ? ? ? ? legacy = TRUE)

GDCdownload(query, method = "client", files.per.chunk = 10, directory="D:/data")

具體參數說明如下，主要設置的參數：query，為GDCquery查詢的結果，files.per.chunk = 10,設置同時下載的數量，如果網速慢建議設置的小一些， directory="D:/data" 數據存儲的路徑；

整理數據? GDCprepare()

GDCprepare可以自動的幫我們獲得基因表達數據：

data <- GDCprepare(query = query,

? ? ? ? ? ? ? ? ? save = TRUE,

? ? ? ? ? ? ? ? ? directory =? "D:/data", ? #注意和GDCdownload設置的路徑一致GDCprepare才可以找到下載的數據然后去處理。 ? ?

? ? ? ? ? ? ? ? ? save.filename = "GBM.RData") ? #存儲一下，方便下載直接讀取

獲得了data數據之后，就可以往下進行數據挖掘了。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,797評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,179評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,628評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,642評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,444評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,948評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,040評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,185評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,717評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,794評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,418評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,414評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,750評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

TCGA數據下載，TCGAbiolinks(搬運)

TCGA數據下載，TCGAbiolinks(搬運)

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

TCGA數據下載，TCGAbiolinks(搬運)

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频