歡迎關注”生信修煉手冊”!
在chip_seq的實驗中,由于抗體反應的敏感性,生物學重復樣本的一致性很難把控。為了保證重復樣本具有較好的一致性,除了在實驗上保證操作流程的規范化,對于測序數據,我們也需要對其進行評估。
deeptools是一款非常好用的工具,提供了很多有用的功能,本文主要介紹如何使用deeptools來計算樣本間的相關性,并進行可視化,主要分為以下兩個步驟
1. 計算bam文件的coverage
對于轉錄組數據,通常通過樣本的表達譜來計算樣本間的相關性,對于chip-seq等沒有明確定量結果的數據,通常的策略是將基因組劃分為等長的區間,稱之為bin
, 計算每個區間內的覆蓋度,然后通過比較不同樣本間的覆蓋度來計算樣本相關性,借助deeptools中的multiBamSummary
命令,可以實現這一功能,用法如下
multiBamSummary bins \
--bamfiles file1.bam file2.bam \
--binSize 10000 \
--numberOfProcessors 10 \
--outRawCounts results.txt \
-o results.npz \
2. 可視化
上一步產生的后綴為npz
的文件,通過plotCorrelation
命令可以計算相關性,該命令支持spearman和pearson兩種相關性分析,pearson相關系數建立在數據符合正態分布的基礎上,而spearman相關系數會根據數據的排序即秩進行分析,所以會數據分布沒有任何要求,但是對應的敏感性會低一點。
該命令的基本用法如下
plotCorrelation \
-in reads.npz \
--corMethod spearman \
--skipZeros \
--plotTitle "Sperman Correlation of Read Counts" \
--whatToPlot heatmap \
--colorMap RdYlBu \
--plotNumbers \
-o heatmap_SpearmanCorr.pdf \
--outFileCorMatrix SpearmanCorr_readCounts.tab
輸出結果示意如下
圖上標記的是相關系數,除了熱圖之外,還支持輸出兩兩比較的散點圖,用法如下
plotCorrelation \
-in results.npz \
--corMethod pearson \
--skipZeros \
--plotTitle "Pearson Correlation of Average Scores Per Transcript" \
--whatToPlot scatterplot \
-o scatterplot_PearsonCorr.pdf \
--outFileCorMatrix PearsonCorr_bigwigScores.tab
輸出結果如下
通過deepTools,可以很方便的對生物學重復的一致性進行評估。
·end·
—如果喜歡,快分享給你的朋友們吧—
掃描關注微信號,更多精彩內容等著你!