RNA-seq前期數(shù)據(jù)分析

自己在學(xué)習(xí)數(shù)據(jù)處理時(shí)候的筆記,希望能幫到大家~
RNA-seq數(shù)據(jù)基本分析流程:

參考文獻(xiàn):https://www.nature.com/articles/nprot.2016.095#procedure

關(guān)于fastq格式:

Fastq格式是一種基于文本的存儲(chǔ)生物序列和對(duì)應(yīng)堿基(或氨基酸)質(zhì)量的文件格式。

每條序列由4行字符表示,上述樣例顯示有兩條序列:

第一行:必須以“@”開(kāi)頭,后面跟著唯一的序列ID標(biāo)識(shí)符,然后跟著可選的序列描述內(nèi)容,標(biāo)識(shí)符與描述內(nèi)容用空格分開(kāi)。

第二行:序列字符(核酸為[AGCTN]+,蛋白為氨基酸字符)。

第三行:必須以“+”開(kāi)頭,后面跟著可選的ID標(biāo)識(shí)符和可選的描述內(nèi)容,如果“+”后面有內(nèi)容,該內(nèi)容必須與第一行“@”后的內(nèi)容相同。

第四行:堿基質(zhì)量字符,每個(gè)字符對(duì)應(yīng)第二行相應(yīng)位置堿基或氨基酸的質(zhì)量,該字符可以按一定規(guī)則轉(zhuǎn)換為堿基質(zhì)量得分,堿基質(zhì)量得分可以反映該堿基的錯(cuò)誤率。這行的字符數(shù)與第二行中的字符數(shù)必須相同。

關(guān)于sam格式的文件:‘

SAM(Sequence Alignment/Map)格式是一種通用的比對(duì)格式,用來(lái)存儲(chǔ)reads到參考序列的比對(duì)信息。

SAM是一種序列比對(duì)格式標(biāo)準(zhǔn),由sanger制定,是以TAB為分割符的文本格式。主要應(yīng)用于測(cè)序序列mapping到基因組上的結(jié)果表示,當(dāng)然也可以表示任意的多重比對(duì)結(jié)果。

SAM分為兩部分,注釋信息(header

section)和比對(duì)結(jié)果部分(alignment section)。

行:除注釋外,每一行是一個(gè)read

1 @HD,說(shuō)明符合標(biāo)準(zhǔn)的版本、對(duì)比序列的排列順序;

2 @SQ,參考序列說(shuō)明;

3 @RG,比對(duì)上的序列(read)說(shuō)明;

4 @PG,使用的程序說(shuō)明;

5 @CO,任意的說(shuō)明信息。

打開(kāi)之后是這樣的:unsorted表明還需要進(jìn)行排序。

軟件與數(shù)據(jù)下載:

conda install -c bioconda sra-tools

conda install -c bioconda trim-galore#trim_galore:可以處理illumina,nextera3,smallRNA測(cè)序平臺(tái)的雙端和單端數(shù)據(jù),包括去除adapter和低質(zhì)量reads。

conda install fastqc #質(zhì)量分析

conda install -c bioconda samtools #處理sam/bam格式文件的一種軟件包工具

conda install -c bioconda hisat2#將測(cè)序數(shù)據(jù)比對(duì)到標(biāo)準(zhǔn)基因組,因速度快而選擇了它,但是需要在python2的環(huán)境下運(yùn)行

conda install -c bioconda star #將測(cè)序數(shù)據(jù)比對(duì)到標(biāo)準(zhǔn)基因組,非常好的一個(gè)比對(duì)軟件,但是限制于電腦配置而舍棄了他。

conda install -c bioconda stringtie #轉(zhuǎn)錄本組裝和merge

conda install -c bioconda gffcompare #統(tǒng)計(jì)有多少轉(zhuǎn)錄本與注釋文件相同,以及有多少新轉(zhuǎn)錄本

conda install –c r r #安裝R

conda install -c bioconda bioconductor-ballgown #安裝ballgown,識(shí)別差異表達(dá)的基因

conda install -c bioconda bioconductor-genefilter #安裝genefilter,快速計(jì)算平均值和方差。

Devtools的安裝參考:https://blog.csdn.net/qq_27755195/article/details/53609787

以進(jìn)行R包的安裝。

conda install -c r r-dplyr #安裝dplyr,以對(duì)結(jié)果進(jìn)行排序


raw data下載(找了2個(gè)小鼠的測(cè)序結(jié)果):

fastq-dump --split-3 --gzip SRR3589959

fastq-dump --split-3 --gzip SRR3589960

加上--split-3之后, 會(huì)把原來(lái)雙端拆分成兩個(gè)文件,但是原來(lái)單端并不會(huì)保存成兩個(gè)文件. 還有你用--gzip就能輸出gz格式, 能夠節(jié)省空間的同時(shí)也不會(huì)給后續(xù)比對(duì)軟件造成壓力,比對(duì)軟件都支持,就是時(shí)間要多一點(diǎn)。

標(biāo)準(zhǔn)基因組的數(shù)據(jù)下載:

wgetftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.26_GRCm38.p6/GCF_000001635.26_GRCm38.p6_genomic.fna.gz

注釋文件的下載:

Wgetftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.26_GRCm38.p6/GCF_000001635.26_GRCm38.p6_genomic.gff.gz

Index的下載,自己的電腦沒(méi)法建立index有現(xiàn)成的index可以去https://ccb.jhu.edu/software/hisat2/index.shtml下載:

關(guān)于HISAT2官網(wǎng)上的index:https://www.biostars.org/p/290721/

genome: HFM index for reference

genome_snp: HGFM index for reference plus SNPs

genome_tran: HGFM index for reference plus transcripts

genome_snp_tran: HGFM index for reference plus SNPs and transcripts

當(dāng)然也可以自己建立索引文件:

Hisat2-build reference genome

Index文件不會(huì)用不就狗帶了嗎,注意index文件的格式,其實(shí)就是只有電腦能看你不能看的二進(jìn)制,所以千萬(wàn)不要嘗試打開(kāi),否則會(huì)是一堆亂碼,感覺(jué)自己弄錯(cuò)了emmm,打開(kāi)index文件是一些.ht2格式的文件,參考基因組有幾條染色體就有幾個(gè)這樣的文件,但是運(yùn)行HISAT2的時(shí)候千萬(wàn)不要在文件名后面加上后綴!要不然會(huì)報(bào)錯(cuò)的~


原始數(shù)據(jù)質(zhì)量檢查:

fastqc -o ~/rnaseq/data/qc -t 6 --extractSRR3589959_1.fastq.gz?SRR3589959_2.fastq.gz?SRR3589960_1.fastq.gz?SRR3589960_2.fastq.gz

去除接頭和低質(zhì)量reads:

trim_galore-output_dir ~/rnaseq/data/clean --paired --length 40 --quality 25 SRR3589959_1.fastq.gz? SRR3589959_2.fastq.gz

trim_galore-output_dir ~/rnaseq/data/clean --paired --length 40 --quality 25SRR3589960_1.fastq.gz?SRR3589960_2.fastq.gz

去除接頭和低質(zhì)量reads之后又做了一次質(zhì)量檢查,但是似乎沒(méi)有什么效果,emmmm。

fastqc -o ~/rnaseq/data/clean/qc -t 8--extract SRR3589959_2_val_2.fq.gz SRR3589959_1_val_1.fq.gzSRR3589960_1_val_1.fq.gz SRR3589960_2_val_2.fq.gz


序列比對(duì):

hisat2 -p 6 --dta -t -x~/rnaseq/data/ref/genome -1 ~/rnaseq/data/clean/SRR3589959_1_val_1.fq -2~/rnaseq/data/clean/SRR3589959_2_val_2.fq -S SRR3589959.sam

hisat2 -p 6 --dta -t -x~/rnaseq/data/ref/genome -1 ~/rnaseq/data/clean/SRR3589960_1_val_1.fq -2~/rnase

q/data/clean/SRR3589960_2_val_2.fq -SSRR3589960.sam

將.sam格式的文件排序并轉(zhuǎn)換成.bam:

samtools sort -@ 6 -o SRR3589959.bam~/sam/SRR3589959.sam

samtools sort -@ 6 -o SRR3589960.bam~/sam/SRR3589960.sam

將比對(duì)好的轉(zhuǎn)錄本進(jìn)行assembly:

stringtie -p 6 -G mus.gff -o control.gff -lcontrol SRR3589959.bam

stringtie -p 6 -G mus.gff -o shrna.gff -lshrna SRR3589960.bam

將所有轉(zhuǎn)錄本進(jìn)行合并,至于為啥要合并,看:http://www.lxweimin.com/p/1f5d13cc47f8

stringtie --merge -p 6 -G mus.gff -omerge.gff control.gff shrna.gff

對(duì)合并后的文件與參考基因組的注釋文件進(jìn)行比較:

gffcompare -r mus.gff -G -o mergedmerge.gff

評(píng)估轉(zhuǎn)錄本豐度并為下一步的可視化做準(zhǔn)備:

stringtie -e -B -p 6 -G merge.gff -o~/sam/bam/ballgown/SRR3589959.gff SRR3589959.bam

stringtie -e -B -p 6 -G merge.gff -o~/sam/bam/ballgown/SRR3589960.gff SRR3589960.bam

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,488評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,034評(píng)論 3 414
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 175,327評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 62,554評(píng)論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,337評(píng)論 6 404
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 54,883評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,975評(píng)論 3 439
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,114評(píng)論 0 286
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,625評(píng)論 1 332
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,555評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,737評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,244評(píng)論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 43,973評(píng)論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,362評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,615評(píng)論 1 280
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,343評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,699評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容