文献笔记六十七:鉴定植物线粒体基因组重复序列

时间:2022-07-24
本文章向大家介绍文献笔记六十七:鉴定植物线粒体基因组重复序列,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
文章题目

Repeats of Unusual Size in plant mitochondrial genomes: identification, incidence and evolution

期刊及完成单位

G3 Genes | Genomes | Genetics

大类 生物3区

小类 遗传学3区

(看过一些这个期刊上的文章,整体感觉质量还挺好的)

影响因子 2.744

University of Nebraska

这篇论文的具体研究内容和结论还没有看太明白,目前自己的关注点是这篇论文里提供了一个python脚本ROUSFinder.py,利用blast鉴定线粒体基因组中的重复序列(non-tandem repeat)

这个脚本的使用方法是

python2 ROUSFinder2.py MH645952.fna

脚本是用python2写的

使用前提是blastn已经安装到了/user/bin/目录下,如果blastn没有安装到这个目录下,可以使用-b参数指定blastn的所在路径

默认的重复序列最小长度是50,可以通过-m参数来修改

这个脚本可以在论文提供的附件中下载https://gsajournals.figshare.com/articles/Supplemental_Material_for_Wynn_and_Christensen_2018/7425680

但是他放到了word文档了,自己要用的话需要我们复制到文本文件中,大家可以自己去下载或者到我的公众号留言。

作者还提供了另外一个脚本MultipleRepeats.py可以一次性计算多条序列,但是可能得需要我们自己稍微对脚本进行修改

脚本的输出文件有4个

比较重要的是以_rep_table.txt结尾的文件,内容是

MH645952.1 UNVERIFIED: Actinidia eriantha mitochondrion sequence 772753
Repeat_1 360 12271 12630 plus
Repeat_1 360 131392 131033 minus
Repeat_2 337 191136 191472 plus
Repeat_2 337 312453 312789 plus
Repeat_3 224 15473 15696 plus
Repeat_3 224 621422 621199 minus
Repeat_4 196 417707 417902 plus
Repeat_4 196 624968 624773 minus
Repeat_5 171 117565 117735 plus
Repeat_5 171 625254 625084 minus
Repeat_6 166 339742 339907 plus
Repeat_6 166 696757 696922 plus
Repeat_7 162 9588 9749 plus
Repeat_7 162 452326 452165 minus
Repeat_8 160 15235 15394 plus
Repeat_8 160 621660 621501 minus

包括重复序列的长度,起始位置,正负链等信息