生信星球轉錄組培訓第一期Day3——賣萌哥

閑言碎語

從今天開始轉錄組學習進入正題啦。
要重現的文章是

RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells

雖然不是做植物的,但是大體上都是相通的嘛。
數據存放在NCBI的GEO數據庫,現在鋪天蓋地的都是關于GEO數據庫挖掘的教程,比如我樹就有GEO的教程,其他平臺就更多了,不勝枚舉。但是我好像似乎很少接觸這個數據庫(幾乎沒有),NCBI用的比較多的就是SRA數據庫,有的時候用Taxonomy查一查物種分類信息,年輕的時候(本科二年級)還用過EST數據庫(現在都已經被NCBI的別的數據庫吞并掉了。官網顯示:The Nucleotide database will include EST and GSS sequences in early 2019. )。生信這一行要學的東西很多,會的越多就會發現不會的越多,沒法以有限的生命去探索無限的生信的,選擇自己感興趣的方向就好了。

下面提供一個豆豆寫的介紹各種數據庫的文章,寫得可好了,值得推薦:
??點??我??看??G??E??O??數??據??庫??介??紹??

你也是~


皮完了開始正題。

RNA-seq數據存放地址

根據文章介紹,數據存放在了GEO數據庫的編號是GSE52778.
傳送門:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778

這里講個小技巧:觀察一下上面這個鏈接,是不是搜的GSE52778在最后面?所以如果你想搜換一個編號,那就把acc=后面的編號替換一下就好了。chrome有一個很好用的功能,在右上角的 設置管理搜索引擎其他搜索引擎,點擊添加,按照下圖的模式填寫內容:

添加搜索引擎

輸入geo并按一下空格,就會啟動使用GEO數據庫搜索,這時候只要把要搜的編號打進去就好了,就能直接跳轉到你輸入的編號的GEO數據庫位置了。
使用GEO數據庫搜索

我們要的原始數據呢就放在這里啦:


到SRA數據庫下載原始數據

什么嘛,原來又繞回到SRA數據庫去了。


SRA數據庫里有16個數據

野路子方法

點進來發現有16個數據,一般多個數據的序號都是連著的,按照我以前的彪悍做法呢,就直接寫個循環都下載了,不要的下完了刪掉。比如這里的SRR編號是SRR1039508 ~ SRR1039523剛好16個。

腳本如下:

# 直接用wget下載,-c參數是斷點續傳,可以在網絡斷開之后第二次從斷開的地方繼續下載,否則會從頭開始下載噢
list={08..23}
for i in $list 
do
  wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done

# 用axel下載。前提是要先安裝。我知道ubuntu系統是可以安裝的, 別的系統就不知道了。安裝需要root權限,也可以用源碼或者conda安裝.
# sudo apt-get install axel

list={08..23}
for i in $list 
do
  axel ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done

記得用nohup把腳本掛后臺下載。比如把這個腳本命名成dataDown.sh

nohup bash dataDown.sh &

你問我ftp后面這一串文件夾是怎么找到的?
無他,唯手熟爾。你要是天天到SRA數據庫撈數據并且善于觀察和記憶的話你也可以駕輕就熟的。

以上兩種方法二選一。但是這畢竟是野路子,不管是工具還是過程。而且wget有下載不完全的風險,并且下載速度也不敢恭維。axel是一個多線程的下載工具,下載起來會比axel快一些,但是有很多站點是不支持axel下載的。

那正確的方法是什么呢?

正經方法

查看GSE的介紹:


四組處理

一共四組,每組四個生物重復。這到底用啥處理的?翻譯一下了解一下:

1)沒有治療;
2)用β2-激動劑(即沙丁胺醇,1μM,18小時)處理;
3)用糖皮質激素(即地塞米松(Dex),1μM處理18小時);
4)同時用β2-激動劑和糖皮質激素治療

本次學習小組用對照組和Dexamethasone(第三組)進行學習。

image.png

點擊如圖的位置打開一個新的界面
image.png

根據描述勾選所需的數據,點擊accession list按鈕下載
用notepad++打開之后是這樣的:


accession list

創建工作目錄:

mkdir -p ~/rnaseq/{01raw,02clean,03ref,04qc,05align,06count,07script}

加上編號比較方便快速cd到想要去的文件夾。

軟件安裝

接下來用conda安裝所需的軟件
conda的安裝教程可以參考我的這篇:
conda的安裝與使用(2019-5-16更新)
(這篇簡書已經有四萬八千多的閱讀量了……把我自己都嚇到了)

# 創建一個新的用于rnaseq的環境,并安裝sra-tools
conda create -n rnaseq sra-tools 
# 創建好后激活該環境
conda activate rnaseq

根據豆豆的這篇文章:來吧,加速你的下載
get 如何配置aspera來提高數據的下載速度

2021-05-26 update: 也可以用conda來安裝aspera: conda install -c hcc aspera-cli

mkdir ~/biosoft
cd ~/biosoft
wget -c http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
bash chmod 777 aspera-connect-3.7.4.147727-linux-64.sh

安裝過程中會有提示的:

Installing Aspera Connect

Deploying Aspera Connect (/home/xxx/.aspera/connect) for the current user only.
Restart firefox manually to load the Aspera Connect plug-in

Install complete

到家目錄用ll -a查看是否存在一個.aspera的隱藏文件

cd ~
ls -a
tree .aspera

內容還挺豐富,tree的結果展示出了很多的文件及文件夾,就不放了。
~/.aspera/connect/bin/ascp加入到環境變量中,以全局調用。

再講一個小技巧。
在做生信的過程中難免裝很多很多的軟件,如果每次都把軟件的文件夾加入到$PATH中會讓$PATH變得很亂。那怎么辦呢?
解決辦法是設定一個特定的文件夾叫softlink,把它加入到~/.bashrc中,如果所安裝的軟件只有一個程序的話,在softlink中創建一個該程序的軟連接即可全局調用該軟件啦。

mkdir ~/softlink
echo 'export PATH=~/softlink:$PATH' >> ~/.bashrc
# 或者用vim編輯

cd ~/softlink
ln -s ~/.aspera/connect/bin/ascp .

這種方法只適用于單個可用程序的情況,如果安裝的是一個文件包,里面有很多的腳本和程序可以用的話,還是老老實實的把整個文件夾加入到$PATH中噢。具體的方法我就不寫了,可以去看豆豆的那一篇文章。

下載數據

因為我用的是windows平臺,連接服務器用的是xshell,我可以直接將剛剛下載到本地的
SRR_Acc_List.txt通過拖動,拖到服務器上。但是需要用安裝一個叫lrzsz的程序

apt-get install lrzsz

剛剛搜了一下,可以用源碼安裝lrzsz的。教程在此:Linux下rz/sz安裝及使用方法

正式開始下載啦:

cd ~/rnaseq/01raw
# 直接把文件拖進終端
echo 'cat SRR_Acc_List.txt | while read i ;do prefetch $i -O `pwd` ;done' > dataDown.sh
time bash dataDown.sh

下完了 看了下時間

real  7m24.571s
user  0m49.040s
sys  2m22.474s

真香!


下載完成

下好數據啦!那么今天的任務就結束啦~

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,156評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,401評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,069評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,873評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,635評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,128評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,203評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,365評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,881評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,733評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,935評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,475評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,172評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,582評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,821評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,595評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,908評論 2 372

推薦閱讀更多精彩內容