Call Peak 流程简介
卖萌控的博客
点击这里进入电脑版页面!体验更好
Call Peak 流程简介
2022-11-19 萌小白


Chip_encode_pipeline_2021-03-23_16-55-18.png




对于ChIP-seq实验,我们从比对文件中观察到的是链的不对称性,其中+/-链上的读取密度位于结合位点的中心。所选片段的5'末端将在正链和负链上形成基团。然后使用统计方法评估这些组的分布,并与背景(输入或模拟IP样本)进行比较,以确定富集位点是否可能是真实的结合位点。




1618908951364048690.png






MACS2



MACS2,一个基于模型分析的,常用于ChIP-seq识别转录因子结合位点的工具。 MACS算法捕获基因组的复杂性的影响,以评估丰富的CHIP区域的意义。尽管它是为检测转录因子结合位点而开发的,但它也适用于较大的区域。



MACS通过结合测序标签位置和方向信息来提高结合位点的空间分辨率。MACS可以轻松地单独用于ChIP样品,也可以与增加峰值调用特异性的对照样品一起使用。MACS工作流程如下所示。




macs_workflow.png




配对峰建立模型



真实结合位点周围的标签密度应显示双峰富集模式(或成对的峰)。MACS利用这种双峰模式来对移动大小进行经验建模,以更好地定位精确的结合位点。



为了找到配对峰以建立模型,MACS首先扫描整个数据集,以寻找高度重要的富集区域。仅使用ChIP示例即可完成!给定超声处理的大小(bandwidth)和高置信度的折叠富集(mfold),MACS会bandwidth在基因组上滑动两个窗口,以找到具有相对于随机标签基因组分布而言富集程度更高的标签的mfold区域。



MACS随机采样这些高质量峰中的1,000个,分离其正链和负链标签,并按其中心之间的中点对齐它们。的在对准的两个峰的模式之间的距离被定义为“d”和表示所估计的片段长度。MACS将所有标签朝着3'末端移动d / 2到最可能的蛋白质-DNA相互作用位点。




peak_shift3.png




纠正低映射区域中真实信号的丢失



为了从标签数计算λBG,MAC2需要有效的基因组大小或可映射的基因组大小。可映射性与基因组中特定位置的k聚体的独特性有关。低复杂度和重复区域的唯一性较低,这意味着可映射性较低。因此,我们需要提供有效的基因组长度,以纠正低映射区域中真实信号的丢失。




mappable.png




峰值检测



MACS将每个标签移动 d / 2 后,它会使用2d的窗口大小在基因组中滑动以找到候选峰。沿着基因组的标签分布可以通过泊松分布来建模。泊松是一个参数模型,其中参数λ是该窗口中预期的读取次数。




peak_detection.png




MACS2输出文件



.narrowPeak 是 BED 6 + 4 格式,表示标准BED文件的前6列以及4个其他字段:




1618909157678077310.png




发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容