自己在學(xué)習(xí)數(shù)據(jù)處理時(shí)候的筆記,希望能幫到大家~
RNA-seq數(shù)據(jù)基本分析流程:
參考文獻(xiàn):https://www.nature.com/articles/nprot.2016.095#procedure
關(guān)于fastq格式:
Fastq格式是一種基于文本的存儲(chǔ)生物序列和對(duì)應(yīng)堿基(或氨基酸)質(zhì)量的文件格式。
每條序列由4行字符表示,上述樣例顯示有兩條序列:
第一行:必須以“@”開(kāi)頭,后面跟著唯一的序列ID標(biāo)識(shí)符,然后跟著可選的序列描述內(nèi)容,標(biāo)識(shí)符與描述內(nèi)容用空格分開(kāi)。
第二行:序列字符(核酸為[AGCTN]+,蛋白為氨基酸字符)。
第三行:必須以“+”開(kāi)頭,后面跟著可選的ID標(biāo)識(shí)符和可選的描述內(nèi)容,如果“+”后面有內(nèi)容,該內(nèi)容必須與第一行“@”后的內(nèi)容相同。
第四行:堿基質(zhì)量字符,每個(gè)字符對(duì)應(yīng)第二行相應(yīng)位置堿基或氨基酸的質(zhì)量,該字符可以按一定規(guī)則轉(zhuǎn)換為堿基質(zhì)量得分,堿基質(zhì)量得分可以反映該堿基的錯(cuò)誤率。這行的字符數(shù)與第二行中的字符數(shù)必須相同。
關(guān)于sam格式的文件:‘
SAM(Sequence Alignment/Map)格式是一種通用的比對(duì)格式,用來(lái)存儲(chǔ)reads到參考序列的比對(duì)信息。
SAM是一種序列比對(duì)格式標(biāo)準(zhǔn),由sanger制定,是以TAB為分割符的文本格式。主要應(yīng)用于測(cè)序序列mapping到基因組上的結(jié)果表示,當(dāng)然也可以表示任意的多重比對(duì)結(jié)果。
SAM分為兩部分,注釋信息(header
section)和比對(duì)結(jié)果部分(alignment section)。
行:除注釋外,每一行是一個(gè)read。
1 @HD,說(shuō)明符合標(biāo)準(zhǔn)的版本、對(duì)比序列的排列順序;
2 @SQ,參考序列說(shuō)明;
3 @RG,比對(duì)上的序列(read)說(shuō)明;
4 @PG,使用的程序說(shuō)明;
5 @CO,任意的說(shuō)明信息。
打開(kāi)之后是這樣的:unsorted表明還需要進(jìn)行排序。
軟件與數(shù)據(jù)下載:
conda install -c bioconda sra-tools
conda install -c bioconda trim-galore#trim_galore:可以處理illumina,nextera3,smallRNA測(cè)序平臺(tái)的雙端和單端數(shù)據(jù),包括去除adapter和低質(zhì)量reads。
conda install fastqc #質(zhì)量分析
conda install -c bioconda samtools #處理sam/bam格式文件的一種軟件包工具
conda install -c bioconda hisat2#將測(cè)序數(shù)據(jù)比對(duì)到標(biāo)準(zhǔn)基因組,因速度快而選擇了它,但是需要在python2的環(huán)境下運(yùn)行
conda install -c bioconda star #將測(cè)序數(shù)據(jù)比對(duì)到標(biāo)準(zhǔn)基因組,非常好的一個(gè)比對(duì)軟件,但是限制于電腦配置而舍棄了他。
conda install -c bioconda stringtie #轉(zhuǎn)錄本組裝和merge
conda install -c bioconda gffcompare #統(tǒng)計(jì)有多少轉(zhuǎn)錄本與注釋文件相同,以及有多少新轉(zhuǎn)錄本
conda install –c r r #安裝R
conda install -c bioconda bioconductor-ballgown #安裝ballgown,識(shí)別差異表達(dá)的基因
conda install -c bioconda bioconductor-genefilter #安裝genefilter,快速計(jì)算平均值和方差。
Devtools的安裝參考:https://blog.csdn.net/qq_27755195/article/details/53609787
以進(jìn)行R包的安裝。
conda install -c r r-dplyr #安裝dplyr,以對(duì)結(jié)果進(jìn)行排序
raw data下載(找了2個(gè)小鼠的測(cè)序結(jié)果):
fastq-dump --split-3 --gzip SRR3589959
fastq-dump --split-3 --gzip SRR3589960
加上--split-3之后, 會(huì)把原來(lái)雙端拆分成兩個(gè)文件,但是原來(lái)單端并不會(huì)保存成兩個(gè)文件. 還有你用--gzip就能輸出gz格式, 能夠節(jié)省空間的同時(shí)也不會(huì)給后續(xù)比對(duì)軟件造成壓力,比對(duì)軟件都支持,就是時(shí)間要多一點(diǎn)。
標(biāo)準(zhǔn)基因組的數(shù)據(jù)下載:
注釋文件的下載:
Index的下載,自己的電腦沒(méi)法建立index有現(xiàn)成的index可以去https://ccb.jhu.edu/software/hisat2/index.shtml下載:
關(guān)于HISAT2官網(wǎng)上的index:https://www.biostars.org/p/290721/
genome: HFM index for reference
genome_snp: HGFM index for reference plus SNPs
genome_tran: HGFM index for reference plus transcripts
genome_snp_tran: HGFM index for reference plus SNPs and transcripts
當(dāng)然也可以自己建立索引文件:
Hisat2-build reference genome
Index文件不會(huì)用不就狗帶了嗎,注意index文件的格式,其實(shí)就是只有電腦能看你不能看的二進(jìn)制,所以千萬(wàn)不要嘗試打開(kāi),否則會(huì)是一堆亂碼,感覺(jué)自己弄錯(cuò)了emmm,打開(kāi)index文件是一些.ht2格式的文件,參考基因組有幾條染色體就有幾個(gè)這樣的文件,但是運(yùn)行HISAT2的時(shí)候千萬(wàn)不要在文件名后面加上后綴!要不然會(huì)報(bào)錯(cuò)的~
原始數(shù)據(jù)質(zhì)量檢查:
fastqc -o ~/rnaseq/data/qc -t 6 --extractSRR3589959_1.fastq.gz?SRR3589959_2.fastq.gz?SRR3589960_1.fastq.gz?SRR3589960_2.fastq.gz
去除接頭和低質(zhì)量reads:
trim_galore-output_dir ~/rnaseq/data/clean --paired --length 40 --quality 25 SRR3589959_1.fastq.gz? SRR3589959_2.fastq.gz
trim_galore-output_dir ~/rnaseq/data/clean --paired --length 40 --quality 25SRR3589960_1.fastq.gz?SRR3589960_2.fastq.gz
去除接頭和低質(zhì)量reads之后又做了一次質(zhì)量檢查,但是似乎沒(méi)有什么效果,emmmm。
fastqc -o ~/rnaseq/data/clean/qc -t 8--extract SRR3589959_2_val_2.fq.gz SRR3589959_1_val_1.fq.gzSRR3589960_1_val_1.fq.gz SRR3589960_2_val_2.fq.gz
序列比對(duì):
hisat2 -p 6 --dta -t -x~/rnaseq/data/ref/genome -1 ~/rnaseq/data/clean/SRR3589959_1_val_1.fq -2~/rnaseq/data/clean/SRR3589959_2_val_2.fq -S SRR3589959.sam
hisat2 -p 6 --dta -t -x~/rnaseq/data/ref/genome -1 ~/rnaseq/data/clean/SRR3589960_1_val_1.fq -2~/rnase
q/data/clean/SRR3589960_2_val_2.fq -SSRR3589960.sam
將.sam格式的文件排序并轉(zhuǎn)換成.bam:
samtools sort -@ 6 -o SRR3589959.bam~/sam/SRR3589959.sam
samtools sort -@ 6 -o SRR3589960.bam~/sam/SRR3589960.sam
將比對(duì)好的轉(zhuǎn)錄本進(jìn)行assembly:
stringtie -p 6 -G mus.gff -o control.gff -lcontrol SRR3589959.bam
stringtie -p 6 -G mus.gff -o shrna.gff -lshrna SRR3589960.bam
將所有轉(zhuǎn)錄本進(jìn)行合并,至于為啥要合并,看:http://www.lxweimin.com/p/1f5d13cc47f8
stringtie --merge -p 6 -G mus.gff -omerge.gff control.gff shrna.gff
對(duì)合并后的文件與參考基因組的注釋文件進(jìn)行比較:
gffcompare -r mus.gff -G -o mergedmerge.gff
評(píng)估轉(zhuǎn)錄本豐度并為下一步的可視化做準(zhǔn)備:
stringtie -e -B -p 6 -G merge.gff -o~/sam/bam/ballgown/SRR3589959.gff SRR3589959.bam
stringtie -e -B -p 6 -G merge.gff -o~/sam/bam/ballgown/SRR3589960.gff SRR3589960.bam