ChromImpute是一款用于大规模系统表观基因组分析的软件。在大规模的系统表观组学分析中,缺失值的存在是不可避免的,为了尽可能的减小缺失值对结果的影响,这个时候我们就需要一款这样的软件,可以基于大量的数据集进行训练,从而对缺失值进行科学的插补,达到即使存在缺失值也不对最终的结果形成影响的效果。
上图是经ChromImpute处理的数据,可以看到,蓝色部分是真实的观察值,红色部分是插值后的结果,经ChromImpute处理后数据的完整性得到了很好的提高,为得到更好的结果提供了保障。
01安装教程
以下是ChromImpute的安装方法:
1. 安装 Java 1.6 或更高的版本
2. 解压缩ChromImpute.zip
3. 解压缩EXAMPLE.zip文件并放到ChromImpute文件夹中
4. 使用cmd命令进入到ChromImpute中
5. 运行以下命令:
java -mx4000M -jar ChromImpute.jar Apply EXAMPLE/CONVERTEDDATADIR EXAMPLE/DISTANCEDIR EXAMPLE/PREDICTORDIR EXAMPLE/tier1_samplemarktable.txt EXAMPLE/hg19sizes_chr21.txt EXAMPLE/OUTPUTDATA E034 H3K9ac计算共需耗时20分钟,在EXAMPLE / OUTPUTDATA文件夹中可以找到名为chr 21_impute_E034_H3K9ac.wig.gz的结果文件。
02操作使用
下面我们再详细介绍一遍在日常的研究中如何使用ChromImpute进行插值:
1.如果输入信号没有达到所需的分辨率(如25bp),则使用Convert命令将数据转换为所需的分辨率。运行代码如下:
java -mx4000M -jar ChromImpute.jar Convert EXAMPLE/INPUTDATADIR EXAMPLE/tier1_samplemarktable.txtEXAMPLE/hg19sizes_chr21.txt EXAMPLE/CONVERTEDDATADIR2.数据集之间的全局距离应使用ComputeGlobalDist命令计算。运行代码如下:
java -mx4000M -jar ChromImpute.jar ComputeGlobalDist EXAMPLE/CONVERTEDDATADIR EXAMPLE/tier1_samplemarktable.txt EXAMPLE/hg19sizes_chr21.txt EXAMPLE/DISTANCEDIR3. 使用GenerateTrainData命令可以用于生成训练集。运行代码如下:
java -mx4000M -jar ChromImpute.jar GenerateTrainData EXAMPLE/CONVERTEDDATADIR EXAMPLE/DISTANCEDIR EXAMPLE/tier1_samplemarktable.txt EXAMPLE/hg19sizes_chr21.txt EXAMPLE/TRAINDATA H3K9ac
4.使用Train命令为感兴趣的特定样本类型中的特定标记生成训练后的预测因子。运行代码如下:
java -mx4000M -jar ChromImpute.jar Train EXAMPLE/TRAINDATA EXAMPLE/tier1_samplemarktable.txt EXAMPLE/PREDICTORDIR E034 H3K9ac5.使用Apply命令为所需样本中的所需标记生成估算信号轨迹。运行代码如下:
java -mx4000M -jar ChromImpute.jar Apply EXAMPLE/CONVERTEDDATADIR EXAMPLE/DISTANCEDIR EXAMPLE/PREDICTORDIR EXAMPLE/tier1_samplemarktable.txt EXAMPLE/hg19sizes_chr21.txt EXAMPLE/OUTPUTDATA E034 H3K9ac 参考文献: Ernst J, Kellis M. Large-scale imputation of epigenomic datasets for systematic annotation of diverse human tissues. Nature Biotechnology, 33:364-376, 2015.- 本文固定链接: https://oversea.maimengkong.com/moreshare/916.html
- 转载请注明: : 萌小白 2022年5月11日 于 卖萌控的博客 发表
- 百度已收录