Chip差异Peak分析结果及报告
卖萌控的博客
点击这里进入电脑版页面!体验更好
Chip差异Peak分析结果及报告
2022-11-19 萌小白


1. 概述



1.1. 背景及分析流程简介



为了理解细胞中更为复杂的生物过程,许多研究已在通过比较ChIP-seq的差异获得的不同数据。越来越多的ChIP-seq实验正在研究多种实验条件(例如各种治疗条件,几个不同的时间点和不同的治疗剂量水平)下的转录因子结合,组蛋白修饰的差异。差异富集在生物学和医学研究中已变得具有实际重要性。
为了建立对比条件消除误差,我们对数据进行了以下流程处理:我们首先将A与B两组的结果进行共有Peak区域基因计算,对于有共有区域(overlap)的Peak,计算最高峰位点并向其两侧各延伸250bp作为合并峰计算区域,对每个区域进行的每组样本进行reads表达定量,进行差异Peak的计算,筛选出差异Peak,进行临近3K注释到基因上,进行基因集富集分析。



本组实验结果,我们处理的是有两组重复的DiffPeak数据对比,我们的差异Peak筛选标准为:|log2FC| > 1 && FDR < 0.05



分析流程:


























1.2. 结果汇总

























































































































路径

说明

差异Peak分析结果, 目录: Results/




Results/*DiffPeakInfo.xls

差异Peak计算的所有结果

Results/*DiffPeakInfo.bed

差异Peak计算的所有结果的bed文件

Results/*DiffPeakInfo_FC2-q0.05.xls

差异Peak计算结果按阈值筛选后结果

Results/*DiffPeakInfo_FC2-q0.05.bed

差异Peak计算结果按阈值筛选后结果的bed文件

Results/*DiffPeakInfo_FC2-q0.05_GAIN.bed

差异Peak计算结果按阈值筛选后结果的bed文件(差异上调)

Results/*DiffPeakInfo_FC2-q0.05_LOSS.bed

差异Peak计算结果按阈值筛选后结果的bed文件(差异下调)

Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls

差异Peak计算结果按阈值筛选后结果的临近注释文件

Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls

同上,差异Peak计算结果按阈值筛选后结果的临近注释文件

(按annotation(Promoter), Fold, FDR列排序)

Results/*DiffPeakInfo_FC2-q0.05_PeakAnno_gene.bed

注释到的基因(转录本)信息标记bed文件

差异Peak分析绘图结果, 目录: Results/Plot




Results/Plot/1cor_peakScore_*.png

peak相关性热图分析

Results/Plot/1pca_peakScore_*.png

peak相关性PCA分析

Results/Plot/2cor_readCount_*.png

共有区域的readCount相关性热图分析

Results/Plot/2pca_readCount_*.png

共有区域的readCount相关性PCA分析

Results/Plot/*_1cor.png

差异Peak相关性热图分析

Results/Plot/*_2pca.png

差异Peak的PCA分析

Results/Plot/*_3ma.png

差异Peak的MA图

Results/Plot/*_4vol.png

差异Peak的火山图

Results/Plot/*_5box.png

差异Peak的箱型图

Results/Plot/*_6heatmap.png

差异Peak的热图

显著差异Peak的临近基因集富集分析, 目录: Results/Enrich/




Results/3.Enrich/*/

各组差异Peak的临近注释基因集的富集分析结果目录

Results/3.Enrich/*.html

辅助查看富集结果的网页文件

Results/3.Enrich/*/*-p.adjust1.00.csv

富集分析结果列表(原始)

Results/3.Enrich/*/*-p.adjust0.05.csv

富集分析结果列表(按padj<0.05筛选后)

Results/3.Enrich/*/*.pdf

富集分析的绘图高清文件











* 以上重要结果为加粗显示。





2. 分析流程



2.1. 重叠区域的计算





2.1.1. PeakScore相关性分析



为了进行后续的差异Peak的富集程度比较,我们需要合并Peak比较区域,在overlap的共有区域计算前,我们需要先了解各组内的peak重复性情况。 对Treat组和Control组进行PeakScore相关性热图分析,PCA分析。
























Results/Plot/1cor_peakScore_Demo_A-B.png





Results/Plot/1cor_peakScore_Demo_C-D.png





Results/Plot/1pca_peakScore_Demo_A-B.png





Results/Plot/1pca_peakScore_Demo_C-D.png
















2.1.2. readsCount相关性分析



我们选取至少含有overlap区域>=2个样本的callPeak区域结果,计算最高峰位点并向其两侧各延伸250bp作为合并峰计算区域,对每个区域每组样本进行reads表达定量。 随后,我们对各组进行readsCount的相关性热图分析,PCA分析。
























Results/Plot/2cor_readCount_Demo_A-B.png





Results/Plot/2cor_readCount_Demo_C-D.png





Results/Plot/2pca_readCount_Demo_A-B.png





Results/Plot/2pca_readCount_Demo_C-D.png
















2.2. 差异Peak的计算



2.2.1. 差异Peak的相关性计算及显著性差异Peak的筛选



通过计算两组之间的合并区域的表达差异,我们能获得两组比较计算的差异Peak所有结果。 通过相关性热图及PCA,可以看出组内的差异peak计算的相关性好坏,一般而言好的结果能明显区分开。 通过阈值|log2FC| > 1 & FDR < 0.05进行筛选获得显著差异Peak筛选结果,进行相关性热图,PCA,火山图,热图绘制如下。



通过差异Peak分析,我们得到了基因组范围内的差异Peak信息,为进一步得到差异Peak附近的临近基因信息,我们使用Chipseeker进行进一步注释,得到Peak所对应的临近注释基因,并给出Peak在Promoter的上下游3k,或之外的Intron、Exon等区域的位置及距离等信息的注释文件: Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls
































Results/Plot/Demo_A-vs-B_1cor.png





Results/Plot/Demo_C-vs-D_1cor.png





Results/Plot/Demo_A-vs-B_2pca.png





Results/Plot/Demo_C-vs-D_2pca.png





Results/Plot/Demo_A-vs-B_4vol.png





Results/Plot/Demo_C-vs-D_4vol.png





Results/Plot/Demo_A-vs-B_6heatmap.png





Results/Plot/Demo_C-vs-D_6heatmap.png
















Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls表头说明:

























































































































表头

说明

peakname

差异Peak的name

seqnames

差异Peak所在染色体

start

差异Peak在参考序列上的起始位置

end

差异Peak在参考序列上的终止位置

width

差异Peak的长度信息

strand

正负链信息

Conc

Group1和Group2平均值进行log2标准化后的计数

Conc_Group1

Group1进行log2标准化后的计数

Conc_Group2

Group2进行log2标准化后的计数

Fold

Group1与Group2的差异倍数(进行log2标准化)

p.value

差异Peak的置信度计算

FDR

差异Peak的多重校验FDR

change

上下调标记,上调标记为GAIN,下调标记为LOSS

annotation

peak注释信息(对于注释到基因上等注释信息的描述)

geneChr

注释基因的染色体信息

geneStart

注释基因的起始位置

geneEnd

注释基因的终止位置

geneLength

注释基因的长度

geneStrand

注释基因的正负链

geneId

注释基因的EntrezID

transcriptId

注释基因的转录本名字

distanceToTSS

被注释Peak距离TSS的距离

ENSEMBL

注释基因的ENSEMBL名

SYMBOL

注释基因的SYMBOL名

GENENAME

注释基因的基本描述信息

















2.2.2. 差异Peak注释基因的富集分析



将上述临近注释得到的基因集,进一步进行GO和KEGG富集分析,得到差异Peak筛选结果的临近注释基因富集结果。结果文件说明及解读,同CHIP标准分析流程报告。



结果目录: Results/Enrich/





3. 结果的IGV可视化



为了得到较为直观的测序分析结果,我们一般需要借助可视化工具,IGV在这个过程中扮演十分出色的角色,他不仅展示了不同样本测序覆盖情况,还常常用于联合分析,如mRNA的测序变化与chip测序的变化。
在此项目中,我们用于差异Peak的筛选与评估,我们可将分析结果文件导入,步骤如下:





  1. 导入CHIP分析结果,即前面我们的Chip标准分析结果中.bigwig.narrowPeak文件。





  2. 导入CHIP的差异Peak分析结果,即本分析中所得到的bed结果。





  3. 调节数据显示范围:






    • bigwig 高度范围显示调节:按住 ctrl / command 选中多个.bigwig文件,右击点击 Set Data Range...。 为方便对比,在对比不同区域Peak时,可手动调节显示范围。





    • bed / gene 重叠区域展开设置: 右击bed文件,点击 Expanded 设置展开。






  4. 搜索感兴趣的 Peakname / SYMBOL: 在第一排第三个框内输入Peakname / SYMBOL名,点击GO即可搜索。如果搜索不到,可尝试点击Reload重新加载。







筛选的 Peakname / SYMBOL 的一些方法:






Demo展示:



一个示例如下,在该IGV中通过可视化,可读出的信息有:在 A vs B 的差异Peak对比中, Peakname 为 54218542195422054221 的这些Peak比较区域, A相对B具有显著下调趋势,它们都被临近注释到CCL2基因上,注释类型为3K内的Promoter。



示例图:





转自:http://www.gzscbio.com/m/sevices/detail/271.html
发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容