生信星球轉錄組培訓第一期Day3——賣萌哥

閑言碎語

從今天開始轉錄組學習進入正題啦。
要重現的文章是

RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells

雖然不是做植物的，但是大體上都是相通的嘛。
數據存放在NCBI的GEO數據庫，現在鋪天蓋地的都是關于GEO數據庫挖掘的教程，比如我樹就有GEO的教程，其他平臺就更多了，不勝枚舉。但是我好像似乎很少接觸這個數據庫（幾乎沒有），NCBI用的比較多的就是SRA數據庫，有的時候用Taxonomy查一查物種分類信息，年輕的時候（本科二年級）還用過EST數據庫（現在都已經被NCBI的別的數據庫吞并掉了。官網顯示：The Nucleotide database will include EST and GSS sequences in early 2019. ）。生信這一行要學的東西很多，會的越多就會發現不會的越多，沒法以有限的生命去探索無限的生信的，選擇自己感興趣的方向就好了。

下面提供一個豆豆寫的介紹各種數據庫的文章，寫得可好了，值得推薦：
??點??我??看??G??E??O??數??據??庫??介??紹??

你也是~

皮完了開始正題。

RNA-seq數據存放地址

根據文章介紹，數據存放在了GEO數據庫的編號是GSE52778.
傳送門：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778

這里講個小技巧：觀察一下上面這個鏈接，是不是搜的GSE52778在最后面?所以如果你想搜換一個編號，那就把acc=后面的編號替換一下就好了。chrome有一個很好用的功能，在右上角的 設置→管理搜索引擎→其他搜索引擎，點擊添加，按照下圖的模式填寫內容:

添加搜索引擎

輸入geo并按一下空格，就會啟動使用GEO數據庫搜索，這時候只要把要搜的編號打進去就好了，就能直接跳轉到你輸入的編號的GEO數據庫位置了。

使用GEO數據庫搜索

我們要的原始數據呢就放在這里啦：

到SRA數據庫下載原始數據

什么嘛，原來又繞回到SRA數據庫去了。

SRA數據庫里有16個數據

野路子方法

點進來發現有16個數據，一般多個數據的序號都是連著的，按照我以前的彪悍做法呢，就直接寫個循環都下載了，不要的下完了刪掉。比如這里的SRR編號是SRR1039508 ~ SRR1039523剛好16個。

腳本如下：

# 直接用wget下載，-c參數是斷點續傳，可以在網絡斷開之后第二次從斷開的地方繼續下載，否則會從頭開始下載噢
list={08..23}
for i in $list 
do
  wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done

# 用axel下載。前提是要先安裝。我知道ubuntu系統是可以安裝的， 別的系統就不知道了。安裝需要root權限，也可以用源碼或者conda安裝.
# sudo apt-get install axel

list={08..23}
for i in $list 
do
  axel ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done

記得用nohup把腳本掛后臺下載。比如把這個腳本命名成dataDown.sh

nohup bash dataDown.sh &

你問我ftp后面這一串文件夾是怎么找到的？
無他，唯手熟爾。你要是天天到SRA數據庫撈數據并且善于觀察和記憶的話你也可以駕輕就熟的。

以上兩種方法二選一。但是這畢竟是野路子，不管是工具還是過程。而且wget有下載不完全的風險，并且下載速度也不敢恭維。axel是一個多線程的下載工具，下載起來會比axel快一些，但是有很多站點是不支持axel下載的。

那正確的方法是什么呢？

正經方法

查看GSE的介紹：

四組處理

一共四組，每組四個生物重復。這到底用啥處理的？翻譯一下了解一下：

1）沒有治療;
2）用β2-激動劑（即沙丁胺醇，1μM，18小時）處理;
3）用糖皮質激素（即地塞米松（Dex），1μM處理18小時）;
4）同時用β2-激動劑和糖皮質激素治療

本次學習小組用對照組和Dexamethasone（第三組）進行學習。

image.png

點擊如圖的位置打開一個新的界面

image.png

根據描述勾選所需的數據，點擊accession list按鈕下載
用notepad++打開之后是這樣的：

accession list

創建工作目錄：

mkdir -p ~/rnaseq/{01raw,02clean,03ref,04qc,05align,06count,07script}

加上編號比較方便快速cd到想要去的文件夾。

軟件安裝

接下來用conda安裝所需的軟件
conda的安裝教程可以參考我的這篇：
conda的安裝與使用（2019-5-16更新）
（這篇簡書已經有四萬八千多的閱讀量了……把我自己都嚇到了）

# 創建一個新的用于rnaseq的環境，并安裝sra-tools
conda create -n rnaseq sra-tools 
# 創建好后激活該環境
conda activate rnaseq

根據豆豆的這篇文章：來吧，加速你的下載
get 如何配置aspera來提高數據的下載速度

2021-05-26 update: 也可以用conda來安裝aspera: conda install -c hcc aspera-cli

mkdir ~/biosoft
cd ~/biosoft
wget -c http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
bash chmod 777 aspera-connect-3.7.4.147727-linux-64.sh

安裝過程中會有提示的：

Installing Aspera Connect

Deploying Aspera Connect (/home/xxx/.aspera/connect) for the current user only.
Restart firefox manually to load the Aspera Connect plug-in

Install complete

到家目錄用ll -a查看是否存在一個.aspera的隱藏文件

cd ~
ls -a
tree .aspera

內容還挺豐富，tree的結果展示出了很多的文件及文件夾，就不放了。
把~/.aspera/connect/bin/ascp加入到環境變量中，以全局調用。

再講一個小技巧。
在做生信的過程中難免裝很多很多的軟件，如果每次都把軟件的文件夾加入到$PATH中會讓$PATH變得很亂。那怎么辦呢？
解決辦法是設定一個特定的文件夾叫softlink，把它加入到~/.bashrc中，如果所安裝的軟件只有一個程序的話，在softlink中創建一個該程序的軟連接即可全局調用該軟件啦。

mkdir ~/softlink
echo 'export PATH=~/softlink:$PATH' >> ~/.bashrc
# 或者用vim編輯

cd ~/softlink
ln -s ~/.aspera/connect/bin/ascp .

這種方法只適用于單個可用程序的情況，如果安裝的是一個文件包，里面有很多的腳本和程序可以用的話，還是老老實實的把整個文件夾加入到$PATH中噢。具體的方法我就不寫了，可以去看豆豆的那一篇文章。

下載數據

因為我用的是windows平臺，連接服務器用的是xshell，我可以直接將剛剛下載到本地的
SRR_Acc_List.txt通過拖動，拖到服務器上。但是需要用安裝一個叫lrzsz的程序

apt-get install lrzsz

剛剛搜了一下，可以用源碼安裝lrzsz的。教程在此：Linux下rz/sz安裝及使用方法

正式開始下載啦：

cd ~/rnaseq/01raw
# 直接把文件拖進終端
echo 'cat SRR_Acc_List.txt | while read i ;do prefetch $i -O `pwd` ;done' > dataDown.sh
time bash dataDown.sh

下完了看了下時間

real  7m24.571s
user  0m49.040s
sys  2m22.474s

真香！

下載完成

下好數據啦！那么今天的任務就結束啦~

最后編輯于：2021.05.26 23:35:50

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,156評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,401評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 176,069評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,873評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,635評論 6贊 408
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,128評論 1贊 323
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,203評論 3贊 441
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,365評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,881評論 1贊 334
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,733評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,935評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,475評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,172評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,582評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,821評論 1贊 282
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,595評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,908評論 2贊 372

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

生信星球轉錄組培訓第一期Day3——賣萌哥

生信星球轉錄組培訓第一期Day3——賣萌哥

閑言碎語

野路子方法

腳本如下：

正經方法

創建工作目錄：

軟件安裝

下載數據

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

生信星球轉錄組培訓第一期Day3——賣萌哥

閑言碎語

野路子方法

腳本如下：

正經方法

創建工作目錄：

軟件安裝

下載數據

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频