生信菜鸟团博客2周年精选文章集(4)NCBI数据库的几个探索

目录如下：

生信人必学ftp站点之NCBI-GEO 脚本作业-解读NCBI的ftp里面关于人的一些基因信息 NCBI的taxid简单介绍 NCBI的基因entrez ID相关文件介绍

请直接看我博客吧，下面排版不好：

NCBI的重要性我就不多说了，Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据！所有的数据均可以在ftp站点下载：ftp://ftp-trace.ncbi.nih.gov/geo/

首先，我们在GEO的主页可以看到：

截止到2016年8月2日，统计信息如上，可以看到数据量很恐怖了。

GEO数据库基础知识

GEO Platform (GPL) 芯片平台
GEO Sample (GSM) 样本ID号
GEO Series (GSE) study的ID号
GEO Dataset (GDS) 数据集的ID号

这些数据都可以在ftp里面直接下载：

FTP directory /geo/ at ftp-trace.ncbi.nih.gov

08/02/2016 05:39AM      Directory datasets08/02/2016 05:39AM      Directory platforms08/02/2016 05:39AM      Directory samples08/02/2016 05:39AM      Directory series

网址都是很有规律的！（请务必注意规律）

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311

我们一般是拿到了GSE的study ID号，然后直接把什么的url修改一下，就可以看到关于该study的所以描述信息，是用的什么测序平台(芯片数据，或者高通量测序)，测了多少个样本，来自于哪篇文章！

所有需要的数据均可以下载，而且都是在上面的ftp里面可以根据规律去找到的，甚至可以自己拼接下载的url链接，来做批量化处理！

如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。

如果是高通量测序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！

物种的信息集合都在它的NCBI的taxid号里面，在NCBI里面关于它的英文介绍地址如下 http://www.ncbi.nlm.nih.gov/guide/taxonomy/ ，NCBI人为的给自然界所有的物种都给了一个编号，这个编号就是taxid，是根据计算机里面树这种数据结构来编码的，其中人类的编号是 9606，7227是果蝇，我们只需要进入这个物种的taxid里面就能看的关于它的一切NCBI存在并且收集好的信息。

可以看到NCBI到2015年为止已经收录近50万的物种的基因。

我们可以进入人类的9606这个ID里面进去看看

http://www.ncbi.nlm.nih.gov/taxonomy/?term=9606[uid]

可以看出，人类这个并不是最底层的taxid类别，下面还有两个分类

关于人类这个物种的信息是非常多的

http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=9606&lvl=3&lin=f&keep=1&srchmode=1&unlock

但是它下面的两个亚种人，就比较少的信息。

关于这个taxid的资料还有很多 ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/

其中我们可以下载 wget ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz 这个文件，解压可以看到里面有以下文件，其中比较重要的两个文件

nodes.dmp 这个文件列出了taxid的树的结构信息，子节点，父节点等等

names.dmp 这个文件里面列出了每个独特的taxid对应着的物种名

其它信息不重要，自己看咯

NCBI的基因entrez ID相关文件介绍

地址：ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

里面主要有以下几个文件

我这里主要介绍gene2ensembl，gene2accession， gene2pubmed，gene2go，gene_info信息文件，它们的核心连接是gene的entrez ID号，了解了以下文件之后，可以把gene的entrez ID随意转换为ensembl的ID号，也可以随意转为基因名字，或者基因的通路信息。解压之后的大小如下：