还是用RSeQC对比对后的转录组数据做一下质控

时间:2022-04-23
本文章向大家介绍还是用RSeQC对比对后的转录组数据做一下质控,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

那个时候写教程,以软件安装,软件input和output为主,因为觉得新手最容易纠结的就是这些了,但是现在回过头来看,软件安装已经成了小菜一碟,对各种bam/sam/vcf/gtf也耳熟能详,所谓的input/output也不是问题了。

所以,再看看我最近是如何记录该软件的吧:

RSeQC包是一个python软件,最新版是 v2.6.4 , 依赖于: gcc; python2.7; numpy; R

它提供了一系列有用的小工具能够评估高通量测序尤其是RNA-seq数据,比如一些基本模块,检查序列质量, 核酸组分偏性, PCR偏性, GC含量偏性,还有RNA-seq特异性模块: 评估测序饱和度, 映射读数分布, 覆盖均匀性, 链特异性, 转录水平RNA完整性等

详细列表如下:

bam2fq.py

bam2wig.py

bam_stat.py

clipping_profile.py

deletion_profile.py

divide_bam.py

FPKM_count.py

geneBody_coverage.py

geneBody_coverage2.py

infer_experiment.py

inner_distance.py

insertion_profile.py

junction_annotation.py

junction_saturation.py

mismatchprofile.pynormalizebigwig.pyoverlay_bigwig.py

read_distribution.py

read_duplication.py

readGC.pyreadhexamer.py

read_NVC.py

read_quality.py

RNAfragmentsize.py

RPKMcount.pyRPKMsaturation.py

spilt_bam.py

splitpairedbam.py

tin.py

数据库文件

RSeQC接受4种文件格式:

BED 格式: Tab 分割, 12列的表示基因模型的纯文本文件

SAM 或BAM 格式: 用来存储reads 比对结果信息.

染色体大小文件: 只有两列的纯文本文

Fasta文件的参考基因组

数据库文件根据参考基因组版本自行选择下载,我这里要下载的是hg19系列,下载地址如下:

希望读者能够明白,看教程一定要看规律,我为什么列出如此多的url,其实就是想你领悟它们的共性: 你在浏览器打开就明白了。

### 软件安装

虽然该软件的使用命令非常多,但很多功能并不是用来诊断转录组测序的,所以不在我们的考虑范围内。下面是我们经常会用得到的:

用 来统计总比对记录, , 表示多匹配位点, , , , 等.

可以看到比对效果非常赞,这个转录组很成功!

另外一个比较赞的小程序就是: 结果一般如下:

可以用一个饼图来表示,在生信技能树论坛里面还有人专门提问过。

用 来计算RNA-seq 在基因上的覆盖度,这里推荐对所有的样本的 文件一起运行该程序进行诊断,如图:

junction_annotation.py:

输入一个 或 文件和一个 格式的参考基因文件,这个模块将根据参考基因模型计算剪切融合(splice junctions)事件.

splice read: 一个RNA read,能够被剪切一次或多次

splice junction:多个跨越同一个内含子的剪切事件能够合并为一个 .

一般来说,novel的junction区域总是有的,因为我们用的是ucsc的refseq参考注释集,本身就是不够完整的。

RPKM_saturation.py

  任何样本统计( )的精度受样本大小( )的影响,重抽样切片是使用部分数据来评估样本统计量的精度的方法。这个模块从总的 中重抽样并计算每次的 值,通过这样我们就能检测当前测序深度是不是够的(如果测序深度不够RPKM的值将不稳定,如果测序深度足够则RPKM值将稳定)。*默认情况下,这个模块将计算20个 值(分别是对个转录本使用5%,10%,…,95%的总 ),所以非常消耗内存哦。

  在结果图中,Y轴表示 或

说明:Q1,Q2,Q3,Q4是按照转录本表达量4分位分开的.Q1表示的是表达量低于25%的转录本,以此类推.可以看出:随着样本量升高, 与实际值的偏差也在降低.而且转录本表达量越高这种趋势越明显(Q4最明显).

写在最后:

NGS组学分析流程的每一个步骤都应该是有充分的质量控制,主要是考虑到各个项目的实际情况可能会比较特殊,如果都走一样的自动化,流水线的流程,肯定是会有问题的。

明天给大家看看,问题主要是什么,敬请期待哈。