GEO數據庫:基因表達倉庫(Gene Expression Omnibus),來源于芯片數據、SAGE、高通量測序mRNA、IncRNA等。
數據存放:四種類型GSE、GSM、GPL、GDS
- GSE:將整個項目一系列樣本和平臺聯系起來,例如:GSE17708(GSE+數字),GSE=GPL+GSM
- GSM:對應一個樣本的數據,只對應一個平臺,表示每個樣本操作環境。
- GPL : 平臺信息,包含微列陣或測序平臺簡要描述。
- GDS: 同一個平臺數據集
通過GSE號獲得SRA(short Read Archive),里面包括原始數據、實驗項目、實驗設計、測序平臺、樣本數據等信息,結構如下:
- 第一級:課題study:SRP表示,一個study包括多個experiment。
- 第二級:樣本Samples:SRS表示
- 第三級:實驗experiment:用SRX表示數據如何產生的,包括特定樣本的文庫測序信息。
- 第四級:數據RUN:SRR表示利用測序手段得到的原始數據。
(1)SRA里面存儲整個項目的各種信息,可以看到用什么測序儀,多少RUN,數據量多少,進一步了解需要導出(按箭頭操作)。
image.png
(2)獲取編號
image.png
(3)服務器中存儲編號
cat >srr.ids 選中復制編號,右鍵,enter回車,ctrl+c,粘貼完畢。
(4)配置下載軟件
需要安裝sra-tools ,aspera。
# 創建好后激活
conda activate RNA-seq
# 測試一下prefetch是否可以使用
prefetch #看出不出幫助文檔即可,出來就是成功```
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安裝
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目錄下看看是不是存在了.aspera文件夾,有的話表示安裝成功
cd && ls -a
# 將aspera軟件加入環境變量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后檢查ascp是不是能用了
ascp --help
(5)數據下載
cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done
image.png
附:踩坑記錄
坑:下載SRA數據時prefetch默認下載通過https,速度感人,一個多小時一個文件都沒下載完。
原因及解決:prefetch默認通過https,類似于網頁下載,要通過aspera連用下載。它是IBM旗下的商業高速文件傳輸軟件,與NCBI和EBI有協作合同,相當于加速器。安裝之后通過fasp下載。
image.png