转录组分析 | 使用Trimmomatic过滤Fastq文件

时间:2022-07-23
本文章向大家介绍转录组分析 | 使用Trimmomatic过滤Fastq文件,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

随着测序成本的不断降低,RNA-seq已经是许多实验的标配。经过小编一段时间的准备,接下来的几周时间里,将推出一系列的转录组分析教程,教大家从零开始学习转录组分析,欢迎大家持续关注!

上一期,小编教大家使用FastQC评估了自己手中RNA-seq数据的质量,今天教大家使用Trimmomatic切除数据中的接头序列和低质量序列。

## 下载Trimmomatic
wget -c http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
## 解压
unzip Trimmomatic-0.39.zip
## 进入目录
cd Trimmomatic-0.39

进入目录后,我们可以看到Trimmomatic的执行文件是一个Java文件,所以在运行前,需要先安装Java。

安装好Java后,就可以运行程序啦!

## 切除接头序列
java -jar ./trimmomatic-0.39.jar PE -phred33 -trimlog seq.log -threads 4 seq1.fq.gz seq2.fq.gz seq1.clean.fq.gz seq1.unpaired.fq.gz seq2.clean.fq.gz seq2.unpaired.fq.gz ILLUMINACLIP:./adapters/TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

参数介绍:

PE:过滤双端测序数据(如果数据是单端测序的,则用SE)。

phred33:Fastq文件的质量值格式为phred33,一般二代测序数据的格式基本都是phred33,如果不清楚自己数据格式的话可以咨询测序公司。

trimlog:设置日志文件。

threads:设置线程数。

seq*.fq.gz:需要过滤的Fastq文件。

seq*.clean.fq.gz:过滤后的Fastq文件。

ILLUMINACLIP: ./adapters/TruSeq3-PE.fa指去除illumina测序平台下的TruSeq3接头序列,具体使用哪个接头序列可以咨询测序公司。

接头序列后跟的3个数字(2:30:10)分别代表比对时允许的最大错配数,两条reads与接头序列的匹配率和单条reads与接头的匹配率。2:30:10即表示,在比对接头序列时允许有两个位置的碱基发生错配,双端测序的两条reads与接头序列匹配率超过30%的话,就会被切除掉,单条reads如果与接头序列的匹配率超过10%,也会被切除掉。

SLIDINGWINDOW:5:20表示以5bp为窗口进行滑窗统计,切除碱基平均质量低于20的窗口及之后的序列。

LEADING:5表示切除reads 5’端质量值低于5的碱基,直到某一个碱基的质量值大于5。

TRAILING:5表示切除reads 3’端质量值低于5的碱基,直到某一个碱基的质量值大于5。

MINLEN:50表示去除过滤后长度低于50的reads。

除了这些参数外,如果我们想要切除reads开头的碱基,可以使用HEADCROP 参数。

## 切除reads开头碱基
java -jar ./trimmomatic-0.39.jar PE -phred33 -trimlog seq.log seq1.fq.gz seq2.fq.gz seq1.clean.fq.gz seq1.unpaired.fq.gz seq2.clean.fq.gz seq2.unpaired.fq.gz HEADCROP:9

HEADCROP:9表示切除reads开头9个碱基。

如果想切除reads末端的序列,仅保留前一部分,可以使用CROP 参数。

## 切除reads末端碱基
java -jar ./trimmomatic-0.39.jar PE -phred33 -trimlog seq.log seq1.fq.gz seq2.fq.gz seq1.clean.fq.gz seq1.unpaired.fq.gz seq2.clean.fq.gz seq2.unpaired.fq.gz CROP:130

假设reads长度为150,CROP:130代表切除reads后20个碱基,仅保留前130个碱基。

参考资料:

https://zhuanlan.zhihu.com/p/28802083

https://www.jianshu.com/p/a8935adebaae

http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/TrimmomaticManual_V0.32.pdf

转录组分析教程:

转录组分析 | 使用FastQC进行数据质控