ATAC-Seq剖析教程系列
ATAC-Seq剖析教程:ATAC-seq的布景介绍以及与ChIP-Seq的异同
ATAC-Seq剖析教程:原始数据的质控、比对和过滤
ATAC-Seq剖析教程:用MACS2软件call peaks
ATAC-Seq剖析教程:对ATAC-Seq/ChIP-seq的质量评价(一)phantompeakqualtools
ATAC-Seq剖析教程:对ATAC-Seq/ChIP-seq的质量评价(二)ChIPQC
ATAC-Seq剖析教程:重复样本的处理-IDR
ATAC-Seq剖析教程:用ChIPseeker对peaks进行注释和可视化
ATAC-Seq剖析教程:用网页版工具做功能剖析和motif剖析
ATAC-Seq剖析教程:差异peaks剖析——DiffBind
ATAC-Seq剖析教程:ATAC-Seq、ChIP-Seq、RNA-Seq整合剖析
phantompeakqualtools
核算穿插相关性和其他相关的质控衡量值
在下游剖析前,最好是先对peak calling 后的ChIP-Seq数据进行质量评价。
链穿插相关是一个有用的评价ChIP-Seq质量的办法,它不依靠于peak calling,而是根据ChIP-Seq试验。假如ChIP-Seq试验成功,DNA富集序列标签(蛋白质相互作用的序列)会在reads的双峰富会集发生明显的集合。
发生reads的双峰富集的原因如下:
在ChIP-Seq试验中,DNA被片段化,蛋白质结合的片段会被免疫沉淀,所以发生了有蛋白质结合的DNA片段(fragments )。
DNA的正链从5’端开始被测序(如下图赤色reads),DNA负链也从5’结尾被测序发生如下图所示的蓝色reads。
穿插相关性衡量值
穿插相关衡量是在Watson移动k个碱基后,核算Crick链与Watson链之间的Pearson线性相关。如下面的示意图:
首先在链位移为0时,两个向量之间的Pearson相关值为0.539。
在链位移5bp,两个向量之间的Pearson相关值为0.931。
持续移动这些向量,关于每个链位移核算一个相关值。
最后,咱们将有一个每个碱基对移位与皮尔森相关值的对应表。这是针对每个染色体的每一个峰核算的,然后该值乘以一个缩放因子,再对所有染色体的值相加,就能够绘穿插相关值(y轴)相关于移位值(x轴)生成的穿插相关图。
典型的穿插相关图会发生两个峰:一个富集峰与主要的片段长度(predominant fragment length)相关(高相关性),另一个与read 长度(read length)相关,这个峰也被称为虚幻峰(“phantom” peak)。
穿插相关谱图能够核算评价ChIP_Seq试验信噪比的衡量值,并且试验设计保证fragment length精确。低信噪比和不精确的fragment length 标明ChIP-Seq试验或许有问题。
Normalized strand cross-correlation coefficent (NSC):
NSC是最大穿插相关值除以布景穿插相关的比率(所有或许的链转移的最小穿插相关值)。NSC值越大标明富集效果越好,NSC值低于1.1
标明较弱的富集,小于1表明无富集。NSC值略微低于1.05,有较低的信噪比或很少的峰,这肯能是生物学真实现象,比方有的因子在特定组织类型中只要很少的结合位点;也或许确实是数据质量差。
Relative strand cross-correlation coefficient (RSC):
RSC是片段长度相关值减去布景相关值除以phantom-peak相关值减去布景相关值。RSC的最小值或许是0,表明无信号;富集好的试验RSC值大于1;低于1表明质量低。
phantompeakqualtools 是一个用于核算ChIP-Seq数据富集和质量衡量值的一个工具包。咱们将运用该包来核算根据链穿插相关峰的主要插入巨细(fragment length)和根据相对phantom peak的数据质量衡量值。phantompeakqualtools
是一个R包,依靠samtools
。
下载phantompeakqualtools
wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/phantompeakqualtools/ccQualityControl.v.1.1.tar.gz
tar -xzf ccQualityControl.v.1.1.tar.gz
cd phantompeakqualtools
# 查看README
less README.txt
Linux下装置
R
install.packages(\"caTools\", lib=\"~/R/library\")
运行phantompeakqualtools
mkdir -p logs qual
for bam in bam_dir/sample1.final.bam bam_dir/sample2.final.bam
do
bam2=`basename $bam .final.bam`
Rscript run_spp_nodups.R -c=$bam -savp -out=qual/${bam2}.qual > logs/${bam2}.Rout
done
参数含义:
-c
: 比对过滤后的bam文件的全路径和名字-savp
:保存穿插相关图-out
:会发生数据集重要特征值的输出文件
输出文件解读
输出文件会发生一个tab切割的名为qual的文件,包括的信息如下: