生信宝典之傻瓜式 (三) 我的基因在哪里发光 - 如何查找基因在发表研究中的表达

时间:2022-04-26
本文章向大家介绍生信宝典之傻瓜式 (三) 我的基因在哪里发光 - 如何查找基因在发表研究中的表达,主要内容包括GENEVESTIGATOR、使用实例、从选择的实验或样品中查看指定基因表达、其它主要功能、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。

还在为不会分析大数据发愁吗? 还在为无法查询和比较发表文章中感兴趣基因表达值抱怨吗?

使用genevestigator,高效利用已经有研究结果,轻松与同行研究结果比较!!!

GENEVESTIGATOR

“基因研究员”,帮助研究者对已经发表的公共数据进行查询、比较和可视化呈现。 主页: https://genevestigator.com/ 先在线注册一个帐号,注册时会选择Data Preference: 分 biomedical 生物医学偏动物和医学或plant biology植物,我主做植物选择了plant biology,一定要使用学校和科研单位学术邮箱可以免费使用基础版,每次查询4个基因;否则需 要付费才可以使用。注册完成需要进邮箱点激活链接才能使用。 先下载软件,安装,运行,需要使用刚才申请的帐号和密码才能进入软件主界面。

使用实例

最简单的例子-查找拟南芥基因At3g29430在发表研究中的表达

在左侧上部Quick Search栏输入’At3g29430’,点击Search按扭,瞬间返回了10615个查询结果,单击可散点图呈现。软件界面、操作顺序和结果展示如下图:

从选择的实验或样品中查看指定基因表达

本示例以查询拟南芥中At3g29430 At3g32040基因是否在低氮、低磷胁迫条件下上调表达,来提高设计表型筛选条件的成功可能性。

点击左上 “Get start” 使用向导按扭,弹出窗口左侧单击 “View expression across samples from a choose study”

  • 出发点:对某一研究感觉兴趣;
  • 目标:查看样品中的基因表达;

操作方法:

  1. 选择1个或多个感兴趣的实验:点击右侧 “Experiments”蓝色链接,新窗口中有所有收集实验的列表,可在上方Filter后面文本框查找关键字过滤,如搜索”nitrogen”,会自动过滤相关研究;此时我们再单击下方的“Filter by platform”可以按物种和测序平台两次筛选,这里我们选择Arabidopsis(可以进一步展开拟南芥来选择其中不同的数据类型,如affymetrix, mRNA-seq),结果只有5个实验符合条件,点击样品上方的复选框全选所有实验,或单独选择感觉兴趣的实验,点击下方”OK”即开始向服务器查询相关84个样品的表达数据;点Close关闭之前的使用向导窗口;
  2. 输入基因ID查询:在左下方 “Gene Selection” 区域选择”new”,添加需要查询的基因,每个ID一行,本示例以查询拟南芥中At3g29430 换行 At3g3204,点OK,弹出查找基因列表再点OK,即返回查询结果;
  3. 查看表达值:主界面右侧上部”Samples”工具,我们看到了两个目标基因在84个样品中的表达值。如下图所示:
  1. 结果说明:结果默认按散点图展示表达,不同基因用不同颜色显示;
    1. 图左侧为样品名称,一般包括简单实验条件描述;
    2. 图上部为表达量刻度,将表达分为LOW MEDIUM(IQR)和HIGH三类,MEDIUM(IQR)中是指处于整体中间50%基因的表达范围,高和低分别两端各25%基因表达范围;
    3. 窗口上部为工具栏,可调显示样式,如Display可选散点图Scatterplot或热图heatmap呈现基因表达值;基因表达值默认为标准化的RPM进行log2对数变换,也可选择不做变换的原始值linear;想关注实验中高或低表达的状态,可以选择sort signal values对样品组中表达值进行排序,多基因时,可以点选基因的图例来选择按哪个基因排序;Copy按钮可以在点选单个样品时,复制基因的表达值,粘贴结果为AT3G29430 6.692795 AT3G32040 8.85259;点new会对当前查询结果在程序中复制一次?(可能为进一步筛选或添加基因做备份);右端的文本框中可以输入关键字进一步筛选样品,匹配部分会高亮显示,可用左右箭头来控制浏览上一个或下一个匹配结果。想读原版帮助的小伙伴点击最右侧的Help吧。
    4. 样品信息:鼠标悬停在样本上,会弹出样本相关信息描述,按F2可将弹窗固定观看,想进一步了解样品信息或文章原文,也可点击GEO和PMID链接。如下图:
  1. 结果解读:我计划找nitrogen处理下是否存在差异表达,结果显示没有差异;我接下来又尝试了drought, salt, phosphate等多种实验条件,终于找到了符合预期的结果,筛选到的条件作为实验条件,相比盲目设计多组实验极大的减少了工作量,实验的小伙伴们敢快用起来吧。
  2. 添加更多相关基因展示:在左下角基因选择栏目,点击Add,可以添加更多的基因ID,如我继续添加了At3g29410 At3g29400 At3g32030,可以呈现最多10个基因表达同时显示;散点图会有重叠,个人建议超过三个以上基因用热图呈现更容易解读。
  1. 跨物种研究:在左下角基因选择窗口Gene Selection,对正在分析的项目点右键,选择Create Orthologs,可以寻找多种植物中的同源基因,这里我们选择Oryza Sative水稻,点确定找到9个同源基因;再点左上方数据选择窗口Data Selection中New,默认即可以搜索水稻数据库,可进一步手动选择实验或直接OK(默认选择所有样本)即可,返回水稻中相关研究中这些基因的表达;如下图所示展示原始表达值的热图(linear heatmap):

这个软件功能非常强大,还可进行以下方面的分析,操作简单,按照引导或帮助很容易上手,我就不再一一描述了。

其它主要功能

  1. 在指定的两种条件下查询差异表达基因 Find genes differentially expressed between two chosen conditions
  • 出发点:发现了某个发表的实验很有趣,想找其中差异表达基因;
  • 目标:鉴定差异表达基因,典型的比较为处理:末处理;突变体:野生型;
  1. 查找某基因在哪种组织中特异表达 Find in which tissues a gene is expressed
  2. 查找调节某基因表达的条件 Find conditions regulating a gene of interest
  3. 查找组织特异表达的基因 Find genes specifically expressed in chosen tissues
  4. 自己数据与公共数据进行比较 Compare your results with curated public studies
  5. 跨物种研究同源基因表达模式 Find orthologs having the most likely conserved function
  6. 为RT-PCR实验找参考基因 Find suitable reference genes for RT-qPCR
  7. 找某种特定处理条件下的生物标记物 Find biomarker for a specific treatment