三阴性乳腺癌表达矩阵探索之数据下载及理解
时间:2022-07-28
本文章向大家介绍三阴性乳腺癌表达矩阵探索之数据下载及理解,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
下面是《GEO数据挖掘课程》的配套笔记(第二篇)
了解数据挖掘
公共数据库:(数据来源)
-
GEO
和TCGA
- 国际三大数据中心:
NCBI
, ENSEMBL
, UCSC
GEO
和TCGA
NCBI
, ENSEMBL
, UCSC
- 数据挖掘的概念
- 从大的数据背景中通过各种统计学方法得到数量大小合适的基因集找到的感兴趣的基因集
- 通过各种统计学方法来注释并解释这个基因集的意义
实战:
对文献解读的第三篇文章==Identification of Key Genes and Pathways in Triple-Negative Breast Cancer by Integrated Bioinformatics Analysis== 的分析过程进行重复
- 第一步:下载数据集 GEO数据库基本介绍: 一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个 GSM样本 ,多个研究的GSM样本介意根据研究目的整合为一个 GDS , 不过GDS本身用得很少,而且每个数据集都有自己对应的芯片平台,就是GPL GEO Platform:GPL GEO Sample: GSM GEO Series: GSE GEO Dataset: GDS GEO数据库,根据数据存放的标签GSE号进行查询
找到GSE号进如GEO数据库
进入GEO并搜索数据集点击目标查询进入目标数据集网页
下载数据的详细介绍
探针注释平台的位置
表达矩阵下载位置表达矩阵下载的方式:
表达矩阵下载的方法一
表达矩阵下载方式二
- 使用
GEOquery
R 程序包从GEO数据库下载 ==Note==:使用下面的代码下载的文件都会保存到本地,destdir
参数指定数据存放的位置。此外,比较重要的三个参数为GSEMatrix=TRUE,AnnotGPL=FALSE, getGPL=TRUE
#加载程序包
library(GEOquery)
#根据GDS下载soft文件
gds <- getGEO('GD858', destdir='.')
#根据GPL号下载芯片设计信息
gpl96 <- getGEO("GPL96", destdir=".")
#根据GSE号下载series_matrix.txt.gz
gse1009 <- getGEO("GSE1009",dstdir=".")
- 下载原始芯片表达数据(CEL)
- 直接下载matrix文件,点击‘Series Matrix File(s)’进入到矩阵存放位置,直接点击下载
- 第二步:开始分析
- 新建一个R.project
GSE76275.Rproj
- 在新的project下分别创建每个流程的分析
- 总共分step0-step5step0-install.R : 安装需要用到的程序包Notes: R版本高于3.5 使用BiocManager, 低于3.5用BiocInsrallerrm(list = ls()) #清空当前工作空间变量 options()repos #查看当前工作空间默认的下载包路径options()BioC_mirror #查看使用BioCManager下载包的默认路径options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") # 指定使用BioCManager下载的路径options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) # 指定使用install.packages下载包的路径options()repos options()BioC_mirror# https://bioconductor.org/packages/release/bioc/html/GEOquery.htmlif (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") #判断是否存在BiocManger包,没有的话下载该包 #判断是否存在这些包,不存在的话安装这些包if(!require("KEGG.db")) BiocManager::install("KEGG.db",ask = F,update = F)if(!require("GSEABase")) BiocManager::install("GSEABase",ask = F,update = F)if(!require("GSVA")) BiocManager::install("GSVA",ask = F,update = F)if(!require("clusterProfiler")) BiocManager::install("clusterProfiler",ask = F,update = F)if(!require("GEOquery")) BiocManager::install("GEOquery",ask = F,update = F)if(!require("limma")) BiocManager::install("limma",ask = F,update = F)if(!require("impute")) BiocManager::install("impute",ask = F,update = F)if(!require("genefu")) BiocManager::install("genefu",ask = F,update = F)if(!require("org.Hs.eg.db")) BiocManager::install("org.Hs.eg.db",ask = F,update = F)if(!require("hgu133plus2.db")) BiocManager::install("hgu133plus2.db",ask = F,update = F)if(!require("ConsensusClusterPlus")) BiocManager::install("ConsensusClusterPlus",ask = F,update = F)step1-download.R: 下载所需要的数据##1.获取GEO数据library(GEOquery)f = "SE76275_eSet.Rdata" #如果文件不存在则进行下载if(! file.exist(f)){ gset <- getGEO("GSE76275", destdir=".", AnnotGPL=T, #注释文件,可下可不下 getGPL = T) #注释平台,可下可不下,可以改为F save(gset,file="GSE76275_eSet.Rdata") #保存到本地 }load("GSE76275_eSet.Rdata") #载入数据简单对下载的数据进行了解:ExpressionSet数据形式的组成:assayDataphenoDatafeatureDataexperimentDataprotocalDataclass(gset) #list类型length(gset) #查看长度,只有一个元素class(gset[[1]]) #取出第一个元素,并查看类型为"ExpressionSet"?ExpressionSet #查看这个数据类型,getGEO函数的目的就是下载数据,而下载的数据最终以ExpressionSet的形式存在a<-gset[[1]] #取出该列表的第一个元素并赋值a@experimentData #访问不同的数据集a@assayDatamethods(class='ExpressionSet') #可用于查看该对象的操作函数dat=exprs(a) #取出对象a中的表达矩阵dim(dat) #检查维度,54675个探针,265个病人dat[1:4,1:4] #查看前四行前四列了解实验设计:pd <- pData(a) #取出pdcharacteristics_ch1.1 #取出分组信息ifelse(X==1,'X等于1','X不等于1') #首先判断X是否等于1,如果X等于1,返回'X等于1'的值,否则返回'X不等于1'的值group_list<-ifelse(pd
- 新建一个R.project
视频观看方式
我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:
- 这个课程超级棒,B站免费学习咯:https://m.bilibili.com/video/BV1dy4y1C7jz
- 配套代码在GitHub哈:https://github.com/jmzeng1314/GSE76275-TNBC
- TCGA数据库挖掘,代码在:https://github.com/jmzeng1314/TCGA_BRCA
- GTEx数据库挖掘,代码在:https://github.com/jmzeng1314/gtex_BRCA
- METABRIC数据库挖掘,代码在:https://github.com/jmzeng1314/METABRIC
然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!
- iOS网络——NSURLSession详解及SDWebImage源码解析你要知道的NSURLSession都在这里
- BZOJ3585: mex(主席树)
- 01.LoT.UI 前后台通用框架分解系列之——小图片背景全屏显示(可自动切换背景)
- 02.LoT.UI 前后台通用框架分解系列之——灵活的菜单栏
- 05.LoT.UI 前后台通用框架分解系列之——漂亮的时间选择器
- 06.LoT.UI 前后台通用框架分解系列之——浮夸的图片上传
- 07.LoT.UI 前后台通用框架分解系列之——轻巧的文本编辑器
- 07.LoT.UI 前后台通用框架分解系列之——强大的文本编辑器
- 洛谷P3358 最长k可重区间集问题(费用流)
- 08.LoT.UI 前后台通用框架分解系列之——多样的Tag选择器
- iOS多线程——RunLoop与GCD、AutoreleasePool你要知道的iOS多线程NSThread、GCD、NSOperation、RunLoop都在这里
- iOS多线程——你要知道的RunLoop都在这里你要知道的iOS多线程NSThread、GCD、NSOperation、RunLoop都在这里
- iOS网络——AFNetworking AFHttpSessionManager源码解析
- iOS网络——SDWebImage SDImageDownloader源码解析你要知道的NSURLSession都在这里
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 蛋糕被切成了几块
- 偿还技术债(1)-EventBus源码详解
- 两万六千字带你Kotlin入门
- 从源码看 Jetpack(7)-SavedStateHandle源码详解
- 从源码看 Jetpack(6)-ViewModel源码详解
- linux配置c++11编译环境
- Java 多线程编程(聊聊线程池)
- Java 多线程编程(“锁”事碎碎念)
- Spring Cloud Alibaba技术栈(下)
- Electron安装过程深入解析(读完此文解决Electron安装失败导致的无法启动,无法打包的问题)
- Kafka中副本机制的设计和原理
- Cocoapods更新出错
- 用 Wolfram 语言映射美国的山火
- Mathematica在中学数学教与学中的应用
- 总结一些ES不常用的filter