ChromImpute是一款用于大规模系统表观基因组分析的软件。在大规模的系统表观组学分析中,缺失值的存在是不可避免的,为了尽可能的减小缺失值对结果的影响,这个时候我们就需要一款这样的软件,可以基于大量的数据集进行训练,从而对缺失值进行科学的插补,达到即使存在缺失值也不对最终的结果形成影响的效果。
上图是经ChromImpute处理的数据,可以看到,蓝色部分是真实的观察值,红色部分是插值后的结果,经ChromImpute处理后数据的完整性得到了很好的提高,为得到更好的结果提供了保障。
以下是ChromImpute的安装方法:
1. 安装 Java 1.6 或更高的版本
2. 解压缩ChromImpute.zip
3. 解压缩EXAMPLE.zip文件并放到ChromImpute文件夹中
4. 使用cmd命令进入到ChromImpute中
5. 运行以下命令:
计算共需耗时20分钟,在EXAMPLE / OUTPUTDATA文件夹中可以找到名为chr 21_impute_E034_H3K9ac.wig.gz的结果文件。
下面我们再详细介绍一遍在日常的研究中如何使用ChromImpute进行插值:
1.如果输入信号没有达到所需的分辨率(如25bp),则使用Convert命令将数据转换为所需的分辨率。运行代码如下:
2.数据集之间的全局距离应使用ComputeGlobalDist命令计算。运行代码如下:
3. 使用GenerateTrainData命令可以用于生成训练集。运行代码如下:
java
-mx4000M -jar ChromImpute.jar GenerateTrainData
EXAMPLE/CONVERTEDDATADIR EXAMPLE/DISTANCEDIR
EXAMPLE/tier1_samplemarktable.txt EXAMPLE/hg19sizes_chr21.txt
EXAMPLE/TRAINDATA H3K9ac
4.使用Train命令为感兴趣的特定样本类型中的特定标记生成训练后的预测因子。运行代码如下:
5.使用Apply命令为所需样本中的所需标记生成估算信号轨迹。运行代码如下: