閑言碎語
從今天開始轉錄組學習進入正題啦。
要重現的文章是
雖然不是做植物的,但是大體上都是相通的嘛。
數據存放在NCBI的GEO數據庫,現在鋪天蓋地的都是關于GEO數據庫挖掘的教程,比如我樹就有GEO的教程,其他平臺就更多了,不勝枚舉。但是我好像似乎很少接觸這個數據庫(幾乎沒有),NCBI用的比較多的就是SRA數據庫,有的時候用Taxonomy查一查物種分類信息,年輕的時候(本科二年級)還用過EST數據庫(現在都已經被NCBI的別的數據庫吞并掉了。官網顯示:The Nucleotide database will include EST and GSS sequences in early 2019. )。生信這一行要學的東西很多,會的越多就會發現不會的越多,沒法以有限的生命去探索無限的生信的,選擇自己感興趣的方向就好了。
下面提供一個豆豆寫的介紹各種數據庫的文章,寫得可好了,值得推薦:
??點??我??看??G??E??O??數??據??庫??介??紹??
皮完了開始正題。
根據文章介紹,數據存放在了GEO數據庫的編號是GSE52778.
傳送門:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778
這里講個小技巧:觀察一下上面這個鏈接,是不是搜的GSE52778在最后面?所以如果你想搜換一個編號,那就把
acc=
后面的編號替換一下就好了。chrome有一個很好用的功能,在右上角的設置
→管理搜索引擎→其他搜索引擎
,點擊添加,按照下圖的模式填寫內容:
添加搜索引擎
輸入geo并按一下空格
,就會啟動使用GEO數據庫搜索
,這時候只要把要搜的編號打進去就好了,就能直接跳轉到你輸入的編號的GEO數據庫位置了。
使用GEO數據庫搜索
我們要的原始數據呢就放在這里啦:
什么嘛,原來又繞回到SRA數據庫去了。
野路子方法
點進來發現有16個數據,一般多個數據的序號都是連著的,按照我以前的彪悍做法呢,就直接寫個循環都下載了,不要的下完了刪掉。比如這里的SRR編號是SRR1039508 ~ SRR1039523剛好16個。
腳本如下:
# 直接用wget下載,-c參數是斷點續傳,可以在網絡斷開之后第二次從斷開的地方繼續下載,否則會從頭開始下載噢
list={08..23}
for i in $list
do
wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done
# 用axel下載。前提是要先安裝。我知道ubuntu系統是可以安裝的, 別的系統就不知道了。安裝需要root權限,也可以用源碼或者conda安裝.
# sudo apt-get install axel
list={08..23}
for i in $list
do
axel ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done
記得用nohup把腳本掛后臺下載。比如把這個腳本命名成dataDown.sh
nohup bash dataDown.sh &
你問我ftp后面這一串文件夾是怎么找到的?
無他,唯手熟爾。你要是天天到SRA數據庫撈數據并且善于觀察和記憶的話你也可以駕輕就熟的。
以上兩種方法二選一。但是這畢竟是野路子,不管是工具還是過程。而且wget有下載不完全的風險,并且下載速度也不敢恭維。axel是一個多線程的下載工具,下載起來會比axel快一些,但是有很多站點是不支持axel下載的。
那正確的方法是什么呢?
正經方法
查看GSE的介紹:
一共四組,每組四個生物重復。這到底用啥處理的?翻譯一下了解一下:
1)沒有治療;
2)用β2-激動劑(即沙丁胺醇,1μM,18小時)處理;
3)用糖皮質激素(即地塞米松(Dex),1μM處理18小時);
4)同時用β2-激動劑和糖皮質激素治療
本次學習小組用對照組和Dexamethasone(第三組)進行學習。
點擊如圖的位置打開一個新的界面
根據描述勾選所需的數據,點擊accession list按鈕下載
用notepad++打開之后是這樣的:
創建工作目錄:
mkdir -p ~/rnaseq/{01raw,02clean,03ref,04qc,05align,06count,07script}
加上編號比較方便快速cd到想要去的文件夾。
軟件安裝
接下來用conda安裝所需的軟件
conda的安裝教程可以參考我的這篇:
conda的安裝與使用(2019-5-16更新)
(這篇簡書已經有四萬八千多的閱讀量了……把我自己都嚇到了)
# 創建一個新的用于rnaseq的環境,并安裝sra-tools
conda create -n rnaseq sra-tools
# 創建好后激活該環境
conda activate rnaseq
根據豆豆的這篇文章:來吧,加速你的下載
get 如何配置aspera來提高數據的下載速度
2021-05-26 update:
也可以用conda來安裝aspera: conda install -c hcc aspera-cli
mkdir ~/biosoft
cd ~/biosoft
wget -c http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
bash chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
安裝過程中會有提示的:
Installing Aspera Connect
Deploying Aspera Connect (/home/xxx/.aspera/connect) for the current user only.
Restart firefox manually to load the Aspera Connect plug-inInstall complete
到家目錄用ll -a
查看是否存在一個.aspera
的隱藏文件
cd ~
ls -a
tree .aspera
內容還挺豐富,tree的結果展示出了很多的文件及文件夾,就不放了。
把~/.aspera/connect/bin/ascp
加入到環境變量中,以全局調用。
再講一個小技巧。
在做生信的過程中難免裝很多很多的軟件,如果每次都把軟件的文件夾加入到$PATH
中會讓$PATH
變得很亂。那怎么辦呢?
解決辦法是設定一個特定的文件夾叫softlink
,把它加入到~/.bashrc
中,如果所安裝的軟件只有一個程序的話,在softlink
中創建一個該程序的軟連接即可全局調用該軟件啦。
mkdir ~/softlink
echo 'export PATH=~/softlink:$PATH' >> ~/.bashrc
# 或者用vim編輯
cd ~/softlink
ln -s ~/.aspera/connect/bin/ascp .
這種方法只適用于單個可用程序的情況,如果安裝的是一個文件包,里面有很多的腳本和程序可以用的話,還是老老實實的把整個文件夾加入到$PATH
中噢。具體的方法我就不寫了,可以去看豆豆的那一篇文章。
下載數據
因為我用的是windows平臺,連接服務器用的是xshell,我可以直接將剛剛下載到本地的
SRR_Acc_List.txt
通過拖動,拖到服務器上。但是需要用安裝一個叫lrzsz
的程序
apt-get install lrzsz
剛剛搜了一下,可以用源碼安裝lrzsz
的。教程在此:Linux下rz/sz安裝及使用方法
正式開始下載啦:
cd ~/rnaseq/01raw
# 直接把文件拖進終端
echo 'cat SRR_Acc_List.txt | while read i ;do prefetch $i -O `pwd` ;done' > dataDown.sh
time bash dataDown.sh
下完了 看了下時間
real 7m24.571s
user 0m49.040s
sys 2m22.474s
真香!
下好數據啦!那么今天的任務就結束啦~