测序数据质控界的宠儿-Trimmomatic
卖萌控的博客
点击这里进入电脑版页面!体验更好
测序数据质控界的宠儿-Trimmomatic
2022-4-3 萌小白


一个优质的测序结果,除了倚仗技术娴熟的实验人员和稳定的测序仪器,更重要的是要有一款集能力和才华于一身的质控软件。高通量测序下机的原始数据raw
reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。今天,小奥要给大家介绍的就是数据质控界的宠儿——Trimmomatic软件。



Trimmomatic 简介



Trimmomatic软件,2014年首次发表在Bioinformatics期刊上,是一款专门对Illumina平台测序产生的reads进行修剪和过滤的软件。自发表以来,Trimmomatic软件凭借其简单的安装方法、较快的运行速度(支持多线程)、强大的去接头能力(simple和palindrome两种模式)、多元化的低质量数据处理方式、人性化的输出格式(clean
reads为一一对应的pair-end形式,无需再次处理)等特点,深受数据处理者喜爱!下面就由小奥带大家一起来学习下Trimmomatic的具体用法。



Trimmomatic 下载安装



Trimmomatic下载安装方式有网站链接安装和Linux系统下命令安装两种方式。



◆方法一:直接进入网站http://www.usadellab.org/cms/index.php?page=trimmomati c进行手动下载二进制软件,解压后的trimmomatic-0.38.jar即为我们需要的软件。






◆方法二:在Linux系统下通过命令行进行下载安装



1.mkdir Trimmomatic(创建一个名为Trimmomatic的文件夹)






2.cd Trimmomatic (进入Trimmomatic文件夹工作路径下)






3.wget



http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip(通过wget命令下载Trimmomatic-0.38.zip压缩文件)






4.unzip Trimmomatic-0.38.zip (解压缩Trimmomatic-0.36.zip文件)






5.java -jar~/biosoft/Trimmomatic/Trimmomatic-0.36/trimmomatic-0.36.jar –h(运行安装命令,即可完成安装)






Trimmomatic 质控用法



根据单端测序和双端测序两种模式,Trimmomatic软件也有两种质控用法



◆ 1. SE 模式



SE模式下,只有一个输入文件和一个质控后的输出文件,运行命令如下



Java –jar < trimmomatic的安装路径> SE
–threads <线程数> <input> <output> <step1>
<step2> …<step1><step2>… 表示每一步的质控参数



◆ 2. PE模式



PE 模式下,有两个输入文件(正向测序reads和反向测序reads)和四个质控后的输出文件(双端序列都保留的paired序列文件和只保留一端序列的unpaired序列文件),运行命令如下:



Java -jar $trimmomatic PE -threads 12
-phred33 $R1.fq.gz $R2.fq.gz $R1.paired.fq.gz $R1.unpaired.fq.gz
$R2.paired.fq.gz $R2.unpaired.fq.gz ILLUMINACLIP:$adapter.fa:2:30:10
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36



参数设置说明(同一个命令下的不同参数可以用“:”来界定):



$ 表示软件或文件所在的路径(建议使用绝对路径)



$R1.fq.gz $R2.fq.gz 为两个输入文件



$R1.paired.fq.gz $R1.unpaired.fq.gz $R2.paired.fq.gz $R2.unpaired.fq.gz 为四个对应的输出文件



Phred33 设置碱基的质量格式,默认的是-phred64。



ILLUMINACLIP:$adapter.fa:2:30:10 adapter.fa为接头文件,2表示最大mismatch数,30表示palindrome模式下碱基的匹配阈值,10表示simple模式下碱基的匹配阈值。



LEADING: 3 表示切除reads 5’端碱基质量低于3的碱基。



TRAILING:3 表示切除3’ 端碱基质量低于3的碱基。



SLIDINGWINDOW:4:15 表示以4个碱基为窗口进行滑动,切除窗口内碱基平均质量小于15的。



MINLEN:36 丢弃以上步骤处理后,序列长度小于36的reads。



发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容