不可不知的基因组版本对应关系
时间:2022-05-03
本文章向大家介绍不可不知的基因组版本对应关系,主要内容包括不同版本对应关系、GTF注释文件下载、NCBI:最新版(hg38)、NCBI:其它版本、Ensembl、UCSC、UCSC基因组下载、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
不同版本对应关系
hg19,GRCH37和Ensembl75是三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC和ENSEMBL各自发布的基因组信息。
hg系列,hg18/19/38来自UCSC,也是目前使用频率最高的基因组。从出道至今我就只看过hg19了,但是建议大家都转为hg38,因为它是目前的最新版本。
基因组各种版本对应关系综合来看如下所示:
- GRCh36 (hg18): ENSEMBL release_52.
- GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
- GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
ENSEMBL的版本特别复杂也很容易搞混,UCSC的版本就简单很多,常用的是hg19,最新版本为hg38。
看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!
Feb 13 2014 00:00 Directory April_14_2003Apr 06 2006 00:00 Directory BUILD.33Apr 06 2006 00:00 Directory BUILD.34.1Apr 06 2006 00:00 Directory BUILD.34.2Apr 06 2006 00:00 Directory BUILD.34.3Apr 06 2006 00:00 Directory BUILD.35.1Aug 03 2009 00:00 Directory BUILD.36.1Aug 03 2009 00:00 Directory BUILD.36.2Sep 04 2012 00:00 Directory BUILD.36.3Jun 30 2011 00:00 Directory BUILD.37.1Sep 07 2011 00:00 Directory BUILD.37.2Dec 12 2012 00:00 Directory BUILD.37.3
从上面可以看到,有37.1, 37.2和 37.3 等等,不过这种版本一般指的是注释在更新而基因组序列一般不变。
总之你需要记住, hg19基因组大小是3G,压缩后八九百兆。
如果要下载GTF注释文件,基因组版本尤为重要。
GTF注释文件下载
NCBI:最新版(hg38)
- ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/
NCBI:其它版本
- ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/
Ensembl
- ftp://ftp.ensembl.org/pub/release-75/gtf/homosapiens/Homosapiens.GRCh37.75.gtf.gz
变化上面链接中的release就可以拿到所有版本信息
- ftp://ftp.ensembl.org/pub/
UCSC
本身需要一系列参数:
1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables2. Select the following options:clade: Mammalgenome: Humanassembly: Feb. 2009 (GRCh37/hg19)group: Genes and Gene Predictionstrack: UCSC Genestable: knownGeneregion: Select "genome" for the entire genome.output format: GTF - gene transfer formatoutput file: enter a file name to save your results to a file, or leave blank to display results in the browser3. Click 'get output'.
搞清楚版本关系后就可以进行下载了。
UCSC基因组下载
UCSC里面下载非常方便,只需要根据基因组简称来拼接url:
http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz
或者用shell脚本指定下载的染色体号
for i in $(seq 1 22) X Y M;do echo $i;wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;donegunzip *.gzfor i in $(seq 1 22) X Y M;do cat chr${i}.fa >> hg19.fasta;donerm -fr chr*.fasta
编辑校对:思考问题的熊
- IronPython资料
- WordPress免插件仅代码实现“返回顶部、返回底部、评论”效果(样式一)
- encodeURIcomponent编码和ASP.NET之间编码转换
- WordPress免插件仅修改代码去掉评论/留言里的链接
- 阅读Ext 学习Javascript(一)Core/Ext.js
- 利用腾讯的ip地址库做ip地址定位
- WordPress登陆不了后台的原因及解决方法(登陆界面不断返回)
- select元素的options.add 与 insertbefore的区别
- 如何去理解 拓扑排序算法
- WordPress免插件仅代码实现文章归档(模板页面)I
- Bing Map App 开发 还没入门遇见错误无法继续
- 使用MongoDB的支持Linq 驱动NoRM
- Ext的组件模型印象
- 2018年预计仍将持续活跃走高的数字货币都有哪些?
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- django实战(五)--增加数据
- 实战django(一)--(你也能看懂的)注册与登录(带前端模板)
- 【python-leetcode23-多路归并】合并k个排序链表
- 实战django(二)--登录实现记住我
- org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com.gong.mybatis.da
- 【python-leetcode378-二分查找】有序矩阵中的第k小元素
- 使用cookie来记录用户登录次数,为何次数不更新
- (二)golang--windows下vscode的安装以及go环境的配置
- mybatis文件映射之使用#取值时的一些规则
- 【论文笔记】Improved Residual Networks for Image and Video Recognition(ResNet新变体:IResNet)
- SQL语句在MYSQL中的运行过程和各个组件的介绍
- (五)golang--常用的一些玩意
- 关于MYSQL 的日志系统
- (六)golang--变量
- springmvc之文件上传