数据质控-Trimmomatic
生信分析中最常见的数据格式应该就是fastq了。我们最初拿到的数据也是fastq格式。通常情况下,原始下机数据经过拆分之后获得的数据中会包含有低质量、N(未知碱基)、接头序列等。对raw data质控的软件有很多,比如fqtools可以用来去除低质量及含N的reads,cutadapt是使用最广的去除adapter的软件。上述两个软件分开实现两个功能,导致需要对同一个fastq读取两次,增加了处理时间。Fastp是一款快速全功能的FASTQ文件自动化质控过滤预处理软件,可以一步实现对rawdata的全部过滤要求。Trimmomatic 也是一款用于去除Illumina平台的FASTQ序列中Adapter,根据碱基质量值修正FASTQ序列文件的软件。同时支持单末端(SE)和双末端(PE)测序数据。
安装
可以直接在官网下载,其软件为一个jar包。或者使用conda安装
conda install -c trimmomatic
参数:
PE/SE: 用于指定输入的数据为单端测序还是双端测序
-threads: 用于指定线程数
-phred33: 碱基质量的格式,目前比较常用的为phred33
下面部分为对fastq的修整参数设置:
ILLUMINACLIP: 用于指明接头序列的过滤标准,格式为ILLUMINACLIP:TruSeq3-PE.fa:2:30:10,TruSeq3-PE.fa文件中存放的是adapter序列,可以在软件安装目录下的adapter目录中找到。2表示比对接头时容许的最大错配数,30表示匹配度超过30%时在相应位置切除,10表示这条序列中的某个部分和adapter匹配度超过10%就去除。
SLIDINGWINDOW: 通过滑窗方式进行剪切,当窗口中的平均质量值低于某一阈值时进行切割,例如SLIDINGWINDOW:4:15表示从5‘端开始当window中的平均碱基质量值低于15时从该处进行切除。
LEADING:切除首端小于某一质量值的碱基。如LEADING:3表示切除首端质量值低于3的碱基
TRAILING:切除尾端低于某一质量值的碱基。如TRAILING:3表示切除尾端质量值低于3的碱基
CROP:保留reads至指定长度,从末尾开始切除,例如CROP:16,表示将reads切为16个碱基长度。
HEADCROP:从reads首端开始切除至指定长度,保留尾端碱基
MINLEN:切除之后的长度小于指定长度则舍弃整条reads
软件参数的顺序会影响最后切除之后的效果,例如如果参数为MINLEN:100 CROP:50,那么将会产生50bp长度的reads文件,如果参数为CROP:50 MINLEN:100那么将会把所有的reads都过滤掉。
使用示例
$ trimmomatic SE -phred33 input.fq.gz output.fq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 #单端
$ trimmomatic PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 #双端
Trimmomatic 也可以自己制作包含接头和引物序列的 fasta 文件,格式可以参考软件自带的 adapters 文件夹中的格式。
adapters 文件夹中包含 illumina 测序 TruSeq2,TruSeq3 针对 SE 和 PE 的通用接头和引物序列。
参考文献
Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 2014 Aug 1;30(15):2114-20.
除非注明,文章均为原创,转载请以链接形式标注本文地址
本文地址:http://bioschool.cn/baseability/other-tools/trimmomatic/