使用eggnog-mapper进行功能注释

时间:2022-07-23
本文章向大家介绍使用eggnog-mapper进行功能注释,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

对于许多做非模式生物的同学来说,没有现成的功能注释可用是非常难受的一件事。而blast2go虽然可以一步到位帮你完成功能注释,但它是收费的。这时,我们可以使用eggnog-mapper进行功能注释。

eggnog-mapper现在已经更新到了V2版本,需要在Python2.7环境下运行,并保证有超过40G的存储空间存放数据库。

## 下载eggnog-mapper V2版本
git clone https://github.com/eggnogdb/eggnog-mapper.git

目前,eggNOG数据库已经更新到了5.0版本,收集了更为全面的物种和更多的蛋白序列信息,在进行注释前我们需要先把数据库下载下来。

## 下载
python ./download_eggnog_data.py

直接使用命令下载数据库的话速度非常慢,我们可以使用迅雷或者其他工具下载。

下载地址分别为:

http://eggnogdb.embl.de/download/emapperdb-5.0.0/eggnog.db.gz

http://eggnogdb.embl.de/download/emapperdb-5.0.0/eggnog_proteins.dmnd.gz

下载好后移至eggnog-mapper安装目录的data文件夹下并解压。

解压好之后就可以进行功能注释了。

## 功能注释
python emapper.py -i pep.fa --output out -m diamond --cpu 12

-i:输入蛋白序列。

--output:输出文件前缀。

-m diamond:使用DIAMOND进行序列比对。

--cpu:使用的线程数。

使用DIAMOND进行比对的速度非常快。30万条序列用12个线程注释花了5个多小时。

注释完成后会输出两个文件,emapper.annotations为后缀的文件记录了注释结果。

文件一共有22列:

2. seed eggNOG ortholog 在eggNOG中比对到的最佳结果

大家可以根据自己的需求提取对应的信息。

参考资料:

https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2

https://www.jianshu.com/p/e646c0fa6443