轉錄組PCR去重

原始數據查看:

查看行數

grep '^@' ctr.R1.fq | sort |uniq|wc -l

27787625 也就是乘以四后的行數,即fq的name不會重

比對:

index=/media/pc/disk1/sun/refdata/ensembl_GRCm38/03_bowtie2_index/GRCm38

bowtie2 -p 20 -x $index -1 ctr.R1.fq -2 ctr.R2.fq -S ctr.sam &&

bowtie2 -p 20 -x $index -1 ko.R1.fq -2 ko.R2.fq -S ko.sam

比對結果:

查看sam行數:

igv:

samtools sort --threads 10 -m 2G -o?ctr.bam?ctr.sam &&

samtools sort --threads 10 -m 2G -o??ko.bam? ko.sam

samtools index?ctr.bam &&

samtools index?ko.bam

提取mapped:

samtools view -h -@ 10 -F 4 ctr.sam > ctr.mapped.sam &&

samtools view -h -@ 10 -F 4 ko.sam > ko.mapped.sam

wc -l 查看mapped的sam行數:

對mapped的進行igv:

samtools sort --threads 10 -m 3G -o?ctr.mapped.bam?ctr.mapped.sam &&

samtools sort --threads 10 -m 3G -o??ko.mapped.bam? ko.mapped.sam &&

samtools index?ctr.mappedbam &&

samtools index?ko.mapped.bam

#################################

trim:

trimmomatic PE -phred33 -threads 20 ctr.R1.fq ctr.R2.fq ctr.R1.paired.fq ctr.R1.unpaired.fq ctr.R2.paired.fq ctr.R2.unpaired.fq ILLUMINACLIP:/home/pc/miniconda3/pkgs/trimmomatic-0.38-1/share/trimmomatic-0.38-1/adapters/TruSeq3-PE.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 AVGQUAL:20 MINLEN:36

trimmomatic PE -phred33 -threads 20?ko.R1.fq?ko.R2.fq?ko.R1.paired.fq?ko.R1.unpaired.fq?ko.R2.paired.fq ko.R2.unpaired.fq ILLUMINACLIP:/home/pc/miniconda3/pkgs/trimmomatic-0.38-1/share/trimmomatic-0.38-1/adapters/TruSeq3-PE.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 AVGQUAL:20 MINLEN:36?

比對:

bowtie2 -p 20 -x $index -1 ctr.R1.paired.fq -2 ctr.R2.paired.fq -S ctr.paired.sam &&

bowtie2 -p 20 -x $index -1 ko.R1.paired.fq -2 ko.R2.paired.fq -S ko.paired.sam

經過trim后比對情況并未改善:



1.fatsquniq:

網站https://sourceforge.net/projects/fastuniq/

用法:

list文件

去重命令:

fastuniq -i list -o fastuniq.ctr.R1.fq -p fastuniq.ctr.R2.fq

fastuniq -i list2 -o fastuniq.ko.R1.fq -p fastuniq.ko.R2.fq

去重后的行數

grep '^@' fastuniq.ctr.R1.fq | sort | uniq | wc -l

22295210 乘以四后也是行數;

去重率:

ctrl:80.23%

ko:86.58%

比對:

bowtie2 -p 20 -x $index -1 fastuniq.ctr.R1.fq -2 fastuniq.ctr.R2.fq -S fastuniq.ctr.sam?&&

bowtie2 -p 20 -x $index -1?fastuniq.ko.R1.fq?-2?fastuniq.ko.R2.fq?-S?fastuniq.ko.sam

比對結果:

查看sam:

44590443 fastuniq.ctr.sam

44155981 fastuniq.ko.sam

igv:

samtools sort --threads 10 -m 2G -o fastuniq.ctr.bam fastuniq.ctr.sam &&?

samtools sort --threads 10 -m 2G -o fastuniq.ko.bam fastuniq.ko.sam &&

samtools index?fastuniq.ctr.bam &&

samtools index??fastuniq.ko.bam

提取mapped:

samtools view -h -@ 10 -F 4?fastuniq.ctr.sam >?fastuniq.ctr.mapped.sam &&

samtools view -h -@ 10 -F 4?fastuniq.ko.sam >?fastuniq.ko.mapped.sam

查看mapped行數:

提取mapped后不能用igv。原因是缺少header:

解決:提取mapped時加-h參數:ref:[E::sam_parse1] missing SAM header



2.seqkit:

網站https://bioinf.shenwei.me/seqkit/

用法:

命令:

seqkit rmdup -s ctr.R1.fq -o seqkit.ctr.R1.fq.gz -d seqkit.ctr.R1.duplicated.fq.gz -D seqkit.ctr.R1.duplicated.txt -j 5

seqkit rmdup -s ctr.R2.fq -o seqkit.ctr.R2.fq.gz -d seqkit.ctr.R2.duplicated.fq.gz -D seqkit.ctr.R2.duplicated.txt -j 5

seqkit rmdup -s ko.R1.fq -o seqkit.ko.R1.fq.gz -d seqkit.ko.R1.duplicated.fq.gz -D seqkit.ko.R1.duplicated.txt -j 5

seqkit rmdup -s ko.R2.fq -o seqkit.ko.R2.fq.gz -d seqkit.ko.R2.duplicated.fq.gz -D seqkit.ko.R2.duplicated.txt -j 5

查看行數:

zcat seqkit.ctr.R1.fq.gz | wc -l -> 57594872 51.82% [去重]

zcat seqkit.ctr.R2.fq.gz | wc -l -> 63321348 56.97%??[去重]

zcat seqkit.ko.R1.fq.gz | wc -l -> 60717652 54.63%??[去重]

zcat seqkit.ko.R2.fq.gz | wc -l -> 67585076 66.26%??[去重]

比對:

bowtie2 -p 20 -x $index -1?seqkit.ctr.R1.fq.gz?-2?seqkit.ctr.R2.fq.gz?-S?seqkit.ctr.sam?&&

bowtie2 -p 20 -x $index -1?seqkit.ko.R1.fq?-2?seqkit.ko.R2.fq?-S?seqkit.ko.sam

報錯了:雙端不對齊

結論:

seqkit去重率約50-70%,但是使用后雙端不齊,無法比對。但是可以保留去重掉的fastq。



3.super_deduper:

官網https://github.com/dstreett/Super-Deduper

新地址https://github.com/ibest/HTStream

用法

命令:

super_deduper -1 ctr.R1.fq -2?ctr.R1.fq -g -p super_deduper.ctrl

super_deduper -1 ko.R1.fq -2?ko.R1.fq?-g -p?super_deduper.ko

查看行數:

zcat super_deduper.ctrl_R1.fastq.gz |wc -l -> 3915060 3.52% [去重]

zcat super_deduper.ctrl_R2.fastq.gz |wc -l -> 3915060 3.52% [去重]

zcat super_deduper.ko_R1.fastq.gz |wc -l -> 3971360 3.89%?[去重]

zcat super_deduper.ko_R2.fastq.gz |wc -l -> 3971360 3.89%?[去重]

修改參數:

super_deduper -1 ctr.R1.fq -2 ctr.R1.fq -g -p super_deduper.ctrl -q 30

super_deduper -1 ko.R1.fq -2 ko.R1.fq -g -p super_deduper.ko -q 20

查看again:

zcat super_deduper.ctrl_R1.fastq.gz | wc -l -> 3915060?3.52% [去重]

zcat super_deduper.ctrl_R2.fastq.gz | wc -l -> 3915060?

zcat super_deduper.ko_R1.fastq.gz | wc -l?-> 3971360?3.89%?[去重]

zcat super_deduper.ko_R2.fastq.gz | wc -l?-> 3971360? 改了參數后竟然沒變

比對:

bowtie2 -p 20 -x $index -1?super_deduper.ctrl_R1.fastq.gz?-2?super_deduper.ctrl_R2.fastq.gz?-S?super_deduper.ctrl.sam?&&

bowtie2 -p 20 -x $index -1?super_deduper.ko_R1.fastq.gz?-2?super_deduper.ko_R2.fastq.gz?-S?super_deduper.ko.sam

比對結果:

查看sam行數:

igv:

samtools sort --threads 10 -m 2G -o super_deduper.ctrl.bam super_deduper.ctrl.sam && samtools sort --threads 10 -m 2G -o super_deduper.ko.bam super_deduper.ko.sam

samtools index?super_deduper.ctrl.bam &&

samtools index??super_deduper.ko.bam

提取mapped:

samtools view -h -@ 10 -F 4?super_deduper.ctrl.sam >?super_deduper.ctrl.mapped.sam &&

samtools view -h -@ 10 -F 4?super_deduper.ko.sam >?super_deduper.ko.mapped.sam

查看mapped的行數

結論:

super_deduper率約3-4%,去重去的太多。原理是什么呢?



4.fastp:

官網https://github.com/OpenGene/fastp

用法:

命令:

fastp -i ctr.R1.fq -I ctr.R2.fq -o fastp.ctr.R1.fq -O fastp.ctr.R2.fq

fastp -i ko.R1.fq -I ko.R2.fq -o fastp.ko.R1.fq -O fastp.ko.R2.fq

查看:

ctrl
ko

查看:

fastp.ctr.R1.fq ->?27082408*4 97.46%?[去重]

fastp.ctr.R2.fq?->?27082408*4?97.46%?[去重]

fastp.ko.R1.fq?->?24873179*4 97.54% [去重]

fastp.ko.R2.fq?->?24873179*4?97.54%?[去重]

比對:

bowtie2 -p 20 -x $index -1?fastp.ctr.R1.fq?-2?fastp.ctr.R2.fq?-S?fastp.ctr.sam?&&

bowtie2 -p 20 -x $index -1?fastp.ko.R1.fq?-2?fastp.ko.R2.fq?-S?fastp.ko.sam

比對情況:

提取mapped:

samtools view -h -@ 10 -F 4?fastp.ctr.sam >?fastp.ctr.mapped.sam &&

samtools view -h -@ 10 -F 4?fastp.ko.sam >?fastp.ko.mapped.sam

查看行:

35,942,791 fastp.ctr.mapped.sam

32,536,623 fastp.ko.mapped.sam

igv:

samtools sort --threads 10 -m 2G -o?fastp.ctr.mapped.bam?fastp.ctr.mapped.sam&& samtools sort --threads 10 -m 2G -o?fastp.ko.mapped.bamfastp.ko.mapped.sam &&

samtools index?fastp.ctr.mapped.bam??&&

samtools index?fastp.ko.mapped.bam



5.samtools:

官網:http://www.htslib.org/

samtools sort --threads 10 -n? ctr.bam?-o ctr.sort.bam &&

samtools fixmate?--threads 10 -m ctr.sort.bam ctr.fixmate.bam &&

samtools sort?--threads 10 ctr.fixmate.bam?-o ctr.positionsort.bam &&

samtools markdup --threads 10 -r ctr.positionsort.bam ctr.markdup.bam

samtools sort --threads 10 -n??ko.bam?-o?ko.sort.bam &&

samtools fixmate?--threads 10?-m?ko.sort.bam?ko.fixmate.bam &&

samtools sort?--threads 10?ko.fixmate.bam?-o?ko.positionsort.bam &&

samtools markdup?--threads 10?-r?ko.positionsort.bam ko.markdup.bam?

查看行:

samtools view??ctr.markdup.bam | wc -l?39,334,011

samtools?view ko.markdup.bam | wc -l?39,170,695

提取mapped:

samtools view -h -@ 10 -F 4??ctr.markdup.bam > ctr.markdup.mapped.sam &&

samtools view -h -@ 10 -F 4??ko.markdup.bam >?ko.markdup.mapped.sam

查看mapped的行數:

wc -l?ctr.markdup.mapped.sam? ->?20,069,023

wc -l?ko.markdup.mapped.sam ->?21,054,225

igv:

samtools sort --threads 10 -m 2G -o ctr.markdup.mapped.bam ctr.markdup.mapped.sam && samtools sort --threads 10 -m 2G -o ko.markdup.mapped.bam ko.markdup.mapped.sam &&

samtools index?ctr.markdup.mapped.bam &&

samtools index??ko.markdup.mapped.bam


6.picard:

官網:https://broadinstitute.github.io/picard/

用法

直接刪除冗余:

java -jar /home/pc/biosoft/picard.jar MarkDuplicates REMOVE_DUPLICATES=true I=ctr.sort.bam O=picard.ctr.sorted.markdup.bam M=picard.ctr.markdup.txt

****************************************************

java -jar /home/pc/biosoft/picard.jar MarkDuplicates REMOVE_DUPLICATES=true I=ko.sort.bam O=picard.ko.sorted.markdup.bam M=picard.ko.markdup.txt

查看行:

samtools?view picard.ctr.sorted.markdup.bam | wc -l ->?39,302,611

samtools?view picard.ko.sorted.markdup.bam | wc -l ->?39,151,069

igv:

samtools index picard.ctr.sorted.markdup.bam

samtools index picard.ko.sorted.markdup.bam

提取mapped:

samtools view -h -@ 10 -F 4??picard.ctr.sorted.markdup.bam >?picard.ctr.sorted.markdup.mapped.sam &&?

samtools view -h -@ 10 -F 4??picard.ko.sorted.markdup.bam >?picard.ko.sorted.markdup.mapped.sam

查看行數:

20,037,624 picard.ctr.sorted.markdup.mapped.sam

21,034,600 picard.ko.sorted.markdup.mapped.sam

igv:

samtools sort --threads 10 -m 2G -o?picard.ctr.sorted.markdup.mapped.bam?picard.ctr.sorted.markdup.mapped.sam?&&

samtools sort --threads 10 -m 2G -o?picard.ko.sorted.markdup.mapped.bam?picard.ko.sorted.markdup.mapped.sam &&

samtools index?picard.ctr.sorted.markdup.mapped.bam?&&

samtools index?picard.ko.sorted.markdup.mapped.bam

# 比對效率低?

用hisat2比對看竟然比對效率提高這么多

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,990評論 2 374

推薦閱讀更多精彩內容