在 Hiplot 中使用 Sigflow

介绍

突变模式（印记）分析（mutational signature analysis）目前已经成为变异检测后一个重要分析流程，它能够揭示癌症组织样本受哪些内外界因素的影响以及其贡献大小。

Sigflow 是基于突变模式分析 R 包 sigminer 所构建的命令行流程软件，提供了几大突变模式分析流程，便于组学流程的对接与自动化分析。

在 Hiplot 平台上，目前 Sigflow 开放了 2 个核心的子命令 extract 和 fit 。

extract：自动利用非负矩阵分解（NMF）算法从头识别突变模式，并将其与 COSMIC 突变模式数据库进行相似性分析，输出突变模式图谱，突变模式贡献图谱，聚类结果等。
fit：直接利用 COSMIC 突变模式数据库进行拟合分析，提供参考突变模式在样本中的贡献，输出突变模式贡献图以及相关结果。

在 Hiplot 平台的进阶模块中，我们可以找到 Sigflow。

点击即可进行工具使用界面。

点击数据文件右侧的突变，可以载入示例输入文件。一般而言，我们推荐使用标准的 MAF 格式文件作为 SBS/DBS/INDEL 突变模式提取的输入（包含同样数据信息的 CSV/EXCEL 格式文件也支持）；提取拷贝数突变模式的输入文件需要包含以下列：

该命令推荐在突变记录多、样本多的情况下使用。

经过简化，extract 命令只需要设置 4 个参数：

基因组版本
- hg19
- hg38
- mm10
模式
- SBS - 单碱基替换
- DBS - 双碱基替换
- ID - 插入和删除
- MAF - 包含上面 3 种
- CN - 拷贝数
最大 signature 数：默认是 -1，根据程序内部的设定运行。用户可以从 2 调整到更大的数目。根据 TCGA 数据的分析显示，一般各类癌症亚型的突变模式在 5 个及以下。
NMF 运行次数：由于 NMF 算法存在起点的随机性，为了得到更好的结果，需要多次运行 NMF，一般推荐 30 到 50 左右。

设定好选项后点击「提交」运行程序。

运行时间受到输入数据大小和最后两个选项的设定影响（10几分钟到数小时），请耐心等待程序结束。

任务完成后，在界面下方可以预览一些输出结果图表，推荐点击结果预览右下侧的下载按钮下载所有的结果图表?。

fit 命令只需要设定 extract 命令提及的前 2 个参数，不再赘述。

fit 命令使用的是动态规划算法寻找输入数据基于 COSMIC 参考突变模式的最佳线性组合，算法很快，一般数百个样本的处理过程可以在数分钟内完成。

在 fit 的结果中，被 COSMIC 数据库标记为 artifact 的突变模式结果被去除了。

任务完成后，在界面下方可以预览一些输出结果图表，推荐点击结果预览右下侧的下载按钮下载所有的结果图表?。