2019-12-22 Day10-14-學(xué)習(xí) TCGA數(shù)據(jù)庫單基因文章套路

花了5天,把視頻看完。順便整理了一下。
IF4.5分左右
套路:TCGA數(shù)據(jù)下載,選擇想要研究的基因,然后對(duì)基因ID進(jìn)行轉(zhuǎn)換,提取矩陣中基因表達(dá)量,然后做差異表達(dá)分析-散點(diǎn)圖-疾病和正常或腫瘤與癌旁比較,配對(duì)的差異分析-腫瘤與癌旁,然后對(duì)TCGA臨床數(shù)據(jù)進(jìn)行下載和整理,生產(chǎn)分析與基因聯(lián)合,然后臨床相關(guān)性分析-與性別-分期等是否有關(guān),然后COX分析-模型預(yù)測疾病風(fēng)險(xiǎn)-探究單基因是否可以作為預(yù)后因子,GSEA富集分析-哪些基因哪些通路調(diào)控

1數(shù)據(jù)下載

TCGA-GDC


image.png

進(jìn)入download界面下載


image.png

檢測CART是否有數(shù)據(jù) 有的話 清空
image.png

選擇癌癥類型-TCGA-Type等細(xì)分
選擇Files-Data Category(轉(zhuǎn)錄本)-Data Type(基因表達(dá))-Workflw Type(FPKM)-點(diǎn)擊cart進(jìn)入界面- 下載三個(gè)文件download和metadata(名字)

2數(shù)據(jù)整理

使用腳本對(duì)數(shù)據(jù)進(jìn)行整理


image.png

解壓到目錄中(不要當(dāng)前文件夾)
然后對(duì)獲得的目錄進(jìn)行合并解壓(


image.png

使用perl腳本)下載Perl
image.png

下載下面那個(gè),然后安裝
安裝驗(yàn)證是否成功-在菜單欄cmd-輸入perl -v


image.png

將腳本復(fù)制到解壓后目錄下
image.png

然后cmd-cd空格輸入路徑-輸入perl 腳本名稱及后綴
image.png

image.png

完成之后對(duì)新文件夾內(nèi)所有目錄解壓,將新文件夾移動(dòng)到外面。然后將meta文件和腳本拷貝到新文件夾
然后cd 空格 目錄名-perl 腳本名稱 meta名稱-運(yùn)行(時(shí)間比較長,等光標(biāo)到>之后)

3 ID轉(zhuǎn)換

TCGA數(shù)據(jù)中ID第4個(gè)0開頭為腫瘤樣本
將之前得到到mRNA matrix.txt文件復(fù)制到第四個(gè)文件中。
human.gtf文件為gene symbol與ID對(duì)應(yīng)文件,看mRNA matrix.txt中ID是否gtf中都有,沒有的刪除行。然后全放到一個(gè)文件下,運(yùn)行腳本
cmd cd空格+路徑 perl空格+腳本


image.png

image.png

4 提取單基因表達(dá)數(shù)據(jù)

對(duì)上述得到的數(shù)據(jù),進(jìn)行提取
首先對(duì)數(shù)據(jù)進(jìn)行整理,如果有重復(fù)基因,對(duì)其進(jìn)行取均值。
將上述得到的文件復(fù)制到文件5目錄下
將腳本打開 復(fù)制命令到R中或搜索lima 安裝軟件


image.png

image.png

然后按要求改內(nèi)容
改完之后輸入R中進(jìn)行運(yùn)行。

5 散點(diǎn)差異圖繪制

將單基因的數(shù)據(jù)復(fù)制大6腳本目錄中
安裝install.packages("beeswarm")
復(fù)制工作目錄,復(fù)制單基因的數(shù)據(jù)的文件名
根據(jù)基因表達(dá)范圍確定縱軸范圍
復(fù)制腳本到R

6 配對(duì)差異分析

然后全放到一個(gè)文件下,運(yùn)行腳本
cmd cd空格+路徑Enter perl空格+腳本 Enter-得到兩個(gè)文件
打開腳本,改工作目錄。
復(fù)制腳本到R中進(jìn)行運(yùn)行。

7 臨床相關(guān)性分析

臨床數(shù)據(jù)下載
搜索TCGA GDC。清空Cart
點(diǎn)擊


image.png

選擇腫瘤類型
選擇數(shù)據(jù)類型


image.png

因?yàn)槭桥R床信息,所以選擇最后一個(gè)
數(shù)據(jù)格式Data Format選擇BCR XML
然后加入Cart中下載
image.png

將下載好的文件與10腳本放置于同一目錄下
cmd cd空格+路徑Enter perl空格+腳本 Enter
得到XLS文件,從中提取數(shù)據(jù)整理表格

8 生存分析

對(duì)得到的臨床數(shù)據(jù)進(jìn)行整理,按生存時(shí)間排序,去除未知數(shù)據(jù),復(fù)制前三列ID 生存時(shí)間 生存狀態(tài)到新建time.txt中。將單基因表達(dá)文件與腳本和新建time.txt放置到同一個(gè)目錄下。
cmd cd空格+路徑Enter perl空格+腳本 Enter
得到生存分析的輸入文件,將其和12腳本放置同一目錄下,打開R,安裝軟件


image.png

設(shè)置工作目錄和基因名稱


image.png

image.png

同時(shí)改后面year
然后將腳本復(fù)制到R中,運(yùn)行
將這個(gè)命令放到最后,然后運(yùn)行,得到5年生存率。
image.png

9 臨床相關(guān)性分析

image.png

單基因表達(dá)量和臨床文件拷貝到13腳本
整理臨床數(shù)據(jù),如按照分期,則刪掉其他的,然后按分期排序,改分期太細(xì)的,按四大分然后復(fù)制到TXT中。其他臨床數(shù)據(jù)分級(jí)等一樣


image.png

然后cmd cd空格+路徑Enter perl空格+腳本 Enter
得到臨床新輸入文件。
ks檢驗(yàn),打開14腳本,按要求修改格式
兩種之間比較wilcox.test,兩種以上krushal.test


image.png

然后復(fù)制14腳本到R中運(yùn)行

10 邏輯回歸比較

image.png

復(fù)制singleGeneClinical.txt文件到15中,打開腳本15,改相關(guān)信息,輸入R
分期1為對(duì)照 分期2與分期1比 分期X與分期1比 改信息,得到OR和置信區(qū)間


image.png

image.png

然后復(fù)制到R中,得到單獨(dú)比的數(shù)據(jù)


image.png

image.png

11 COX分析

獨(dú)立性預(yù)后


image.png

腳本在16中。拷貝單基因表達(dá)文件singleGene,和臨床信息文件clinical,以及clinical.xls。對(duì)XLS進(jìn)行排序,刪除缺少信息的數(shù)據(jù),如果某個(gè)性狀的unknown太多,則去除這個(gè)信息列,不然刪太多行后沒有樣本。
對(duì)分期分級(jí)等及性別進(jìn)行數(shù)字化,男1,女0。然后將處理好的數(shù)據(jù)復(fù)制到文本中,新建clinical.txt
然后cmd cd空格+路徑Enter perl空格+腳本 Enter
得到coxInput.txt,COX分析輸入文件

單因素COX
image.png

image.png

將coxInput.txt復(fù)制到目錄中,復(fù)制17腳本到R中運(yùn)行得到uniCox.xls
當(dāng)基因的HR值不明顯時(shí),可log,如果基因中有0的數(shù)值,需要加1


image.png

image.png
多因素COX

單因素是單獨(dú)一個(gè)一個(gè)輸入,多因素一起
復(fù)制coxInput.txt到18。
打開腳本,需要安裝survminer包,survival包已經(jīng)安裝好,然后設(shè)置,工作目錄雙斜杠,基因。
復(fù)制腳本到R中運(yùn)行。
基因不顯著的時(shí)候,可以去log。


image.png

11 GSEA分析

GSEA富集分析,主要分析這個(gè)基因通過什么通路或功能來對(duì)癌癥的發(fā)生產(chǎn)生影響
搜索,GSEA ,download,注冊(cè)下載軟件


image.png

下載jre,然后下載界面中下載Java8版本的jre,然后直接安裝。cmd java判斷是否安裝好。
輸入文件:5文件中,uniquesymbol。提取基因信息。只需要腫瘤樣品,刪掉正常,低表達(dá)l高表達(dá)h


image.png

將文件全部放到目錄19,cmd cd空格+路徑Enter perl空格+腳本+基因名稱Enter
獲得Ch和GCT兩個(gè)文件。
GSEA富集分析

將CLS和GCT和jre軟件復(fù)制到20目錄下
cmd cd空格+路徑Enter
java- Xmx2G-jar軟件名Enter ,得到界面


image.png

image.png

導(dǎo)入文件Ch和GCT兩個(gè)文件


image.png

image.png

設(shè)施好后運(yùn)行。
時(shí)間很久,結(jié)束后找到index文件
image.png

打開index,打開htm,對(duì)通路進(jìn)行篩選
image.png

image.png
多GSEA富集圖
image.png

節(jié)省了單GSEA的富集,如果有多條通路。21腳本
打開20的HTML的高表達(dá)和低表達(dá)的excel表,整理,F(xiàn)DR>0.05的可以刪掉,如果都>0.05的只能刪p值大于0.05.然后將選擇的通路的excel表,全部復(fù)制到21中。


image.png

在R中安裝包ggplot2.然后復(fù)制腳本到R中運(yùn)行。


image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,156評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,401評(píng)論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,069評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,873評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,635評(píng)論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,128評(píng)論 1 323
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,203評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,365評(píng)論 0 288
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,881評(píng)論 1 334
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,733評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,935評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,475評(píng)論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,172評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,582評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,821評(píng)論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,595評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,908評(píng)論 2 372

推薦閱讀更多精彩內(nèi)容

  • 個(gè)人學(xué)習(xí)批處理的初衷來源于實(shí)際工作;在某個(gè)迭代版本有個(gè)BS(安卓手游模擬器)大需求,從而在測試過程中就重復(fù)涉及到...
    Luckykailiu閱讀 4,751評(píng)論 0 11
  • [TOC] ##Assoc 顯示或修改文件擴(kuò)展名關(guān)聯(lián) Assoc [.Ext[=[Filetype]]] .Ex...
    btijjj閱讀 357評(píng)論 0 1
  • 命令簡介 cmd是command的縮寫.即命令行 。 雖然隨著計(jì)算機(jī)產(chǎn)業(yè)的發(fā)展,Windows 操作系統(tǒng)的應(yīng)用越來...
    Littleston閱讀 3,336評(píng)論 0 12
  • feisky云計(jì)算、虛擬化與Linux技術(shù)筆記posts - 1014, comments - 298, trac...
    不排版閱讀 3,882評(píng)論 0 5
  • win7 cmd管理員權(quán)限設(shè)置 net localgroup administrators 用戶名 /add 把“...
    f675b1a02698閱讀 5,261評(píng)論 0 11