使用MA Anderson御用软件SpliceSeq对TCGA数据库的RNA-seq找可变剪切

时间:2022-07-25
本文章向大家介绍使用MA Anderson御用软件SpliceSeq对TCGA数据库的RNA-seq找可变剪切,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

MA Anderson御用软件SpliceSeq已经是发表于2012的文章了:《SpliceSeq: a resource for analysis and visualization of RNA-Seq data on alternative splicing and its functional impacts》

实际上这些年针对RNA-seq找可变剪切的工具软件发展迅速,发表在December 2019的综述:《Systematic evaluation of differential splicing tools for RNA-seq studies》

  • exon-based (DEXSeq, edgeR, JunctionSeq, limma),
  • isoform-based (cuffdiff2, DiffSplice)
  • event-based methods (dSpliceType, MAJIQ, rMATS, SUPPA).

SpliceSeq产生的可变剪切数据库

其实MA anderson已经使用御用软件SpliceSeq对TCGA数据库的全部的RNA-seq找可变剪切,并且把结果存放在网页工具,供所有人使用:https://bioinformatics.mdanderson.org/TCGASpliceSeq/

你可以很方便的在如何癌症里面查看你感兴趣的基因是否出现在TCGA数据库里面有可变剪切:

而且TCGA数据库的全部癌症的SpliceSeq软件结果数据都是可以下载的,所以催生了33*5篇数据挖掘灌水文章。

当然了,现在也有联合SpliceSeq软件结果与甲基化等其它数据结合起来灌水比如:https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-019-0654-9

下载及安装

文档写的很详细哦,https://bioinformatics.mdanderson.org/public-software/spliceseq/installation/

mkdir -p ~/biosoft/SpliceSeq
cd ~/biosoft/SpliceSeq
wget http://projects.insilico.us.com/SpliceSeq_2.3/SpliceSeq.zip
unzip SpliceSeq.zip 
cd SpliceSeq
java -jar SpliceSeq.jar --help

如果仅仅是查看帮助文档,会出现看起来很像是报错的:

No X11 DISPLAY variable was set, but this program performed an operation which requires it.

因为这个java软件是有UI界面的,跟fastqc一样,为了方便那些并不会shell编程的朋友使用它,可以直接鼠标点击即可使用。

软件使用过程也有完善的文档:https://bioinformatics.mdanderson.org/TCGASpliceSeq/faq.jsp

具体细节也很多:https://bioinformatics.mdanderson.org/public-software/spliceseq/methods/

这个软件并不大;

 361 Apr 29  2016 DB.properties
2.0K Apr 29  2016 SGAnalyzer.properties
2.4K Apr 29  2016 SGAnalyzerPrograms.properties
4.6M Apr 29  2016 SpliceSeq.jar
 498 Apr 29  2016 SpliceSeq.properties
 126 Apr 29  2016 SpliceSeq.state.properties
3.9M Nov  3  2016 SpliceSeqAnalyze.jar
1.5K Sep 10 18:40 SpliceViewer.log
  65 Nov  3  2016 example
 953 Apr 29  2016 log4j.xml

它有两个功能

浏览器功能( SpliceSeq Viewer to Access the SpliceSeq DB)

这个通常是用不上的,因为我们可以直接在网页工具体验即可:https://bioinformatics.mdanderson.org/TCGASpliceSeq/

主要是还需要操作MySQL,这个东西对大部分生信工程师来说,都很难。

SpliceSeq Analyzer

需要配套的bowtie软件,如果是界面版本软件运行就比较简单

同样的需要读文档:https://bioinformatics.mdanderson.org/public-software/spliceseq/dataloading/

如果是命令行就复杂一点:

其实就是软件自带的 example 文件夹下面的两个配置文件需要修改啦。当然啦,作者本身其实推荐使用界面版本软件,方便配置。

结果解释

因为软件太古老,不想运行了,所以暂不解释。其实还是推荐其它软件工具哦,比如我前几年写过的教程:

更多资源

MA Anderson出品的其它软件:https://bioinformatics.mdanderson.org/public-software/

MA Anderson维护的TCGA数据库资源库:https://bioinformatics.mdanderson.org/StandardizedDataBrowser/