基础知识 | R语言数据管理之数据集取子集

时间:2022-07-22
本文章向大家介绍基础知识 | R语言数据管理之数据集取子集,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

R语言数据管理之数据集取子集

在做任何数据分析的第一步,是根据个人需求创建数据集,存储数据的结构是多样的,包括向量,矩阵、数据框、因子以及列表等。其实,以上几个R语言的独特术语,在C++中也会经常用到,导致很多人都会误认为自己很熟悉了,然而在实际的应用中,却经常出现错误。最近在处理一波量大的数据,在运行程序的过程中,因为前期数据处理错误却出现各种bug,经过检查数据集发现是数据管理的问题,为了巩固R语言的基本数据管理,特地重新基础知识。

01

选取变量

#构建数据框

> PatientID<-c(1,2,3,4,5,6)
> Data<-c("03/20/20","03/21/20","03/22/20","03/23/20","03/24/20","03/25/20")
> Age<-c(18,25,26,35,48,50)
> Gender<-c("M","F","F","M","F","M")
> City<-c("福州","厦门","泉州","龙岩","漳州","三明")
> Pr1<-c("69","57","67","65","72","55")
> Pr2<-c("180","155","159","184","167","175")
> Pr3<-c("11","14","34","23","35","12")
> Pr4<-c("6","7","5","8","6","9")
> Pr5<-c("20","34","35","56","47","19")
> S1<-c(88,78,NA,56,45,60)
> S2<-c(67,87,45,25,NA,96)
> mydata<-data.frame(PatientID,Data,Age,Gender,City,Pr1,Pr2,Pr3,Pr4,Pr5,S1,S2)
> mydata
  PatientID     Data Age Gender City Pr1 Pr2 Pr3 Pr4 Pr5 S1 S2
1         1 03/20/20  18      M 福州  69 180  11   6  20 88 67
2         2 03/21/20  25      F 厦门  57 155  14   7  34 78 87
3         3 03/22/20  26      F 泉州  67 159  34   5  35 NA 45
4         4 03/23/20  35      M 龙岩  65 184  23   8  56 56 25
5         5 03/24/20  48      F 漳州  72 167  35   6  47 45 NA
6         6 03/25/20  50      M 三明  55 175  12   9  19 60 96

#比如从mydata数据框中选择Pr1-5成为新的数据集

方法1

> newdata1<-mydata[,c(6:10)]#其中的“,”表示默认选择所有行
> newdata1
  Pr1 Pr2 Pr3 Pr4 Pr5
1  69 180  11   6  20
2  57 155  14   7  34
3  67 159  34   5  35
4  65 184  23   8  56
5  72 167  35   6  47
6  55 175  12   9  19

方法2

> newdata3<-paste("Pr",1:5,sep="")
> newdata3<-mydata[newdata3]
> newdata3
  Pr1 Pr2 Pr3 Pr4 Pr5
1  69 180  11   6  20
2  57 155  14   7  34
3  67 159  34   5  35
4  65 184  23   8  56
5  72 167  35   6  47
6  55 175  12   9  19

方法3

> newdata2<-c("Pr1","Pr2","Pr3","Pr4","Pr5")
> newdata2<-mydata[newdata2]
> newdata2
  Pr1 Pr2 Pr3 Pr4 Pr5
1  69 180  11   6  20
2  57 155  14   7  34
3  67 159  34   5  35
4  65 184  23   8  56
5  72 167  35   6  47
6  55 175  12   9  19

02

删除变量

#若某个变量出现缺失值,在进一步分析之前可能需要丢掉,以下集中方法可用上

方法1

> newdata4<-names(mydata)%in%c("Pr2","Pr4")#返回的是一个逻辑型向量,匹配"Pr2"和"Pr4"元素的值为TRUE,反之为FALSE
> newdata5<-mydata[!newdata4]#mydata[!newdata4]选择逻辑词为TRUE的列,“Pr2”与“Pr4”所在的FLASE的列被剔除。
> newdata5
  PatientID     Data Age Gender City Pr1 Pr3 Pr5 S1 S2
1         1 03/20/20  18      M 福州  69  11  20 88 67
2         2 03/21/20  25      F 厦门  57  14  34 78 87
3         3 03/22/20  26      F 泉州  67  34  35 NA 45
4         4 03/23/20  35      M 龙岩  65  23  56 56 25
5         5 03/24/20  48      F 漳州  72  35  47 45 NA
6         6 03/25/20  50      M 三明  55  12  19 60 96

#分解方法1步骤加强理解

> names(mydata)#生成一个包含变量名的字符型向量
 [1] "PatientID" "Data"      "Age"       "Gender"    "City"      "Pr1"       "Pr2"      
 [8] "Pr3"       "Pr4"       "Pr5"       "S1"        "S2"       
> newdata4
 [1] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE  TRUE FALSE FALSE FALSE
> !newdata4#这是将逻辑词进行反转,将TRUE转为FALSE,将FALSE转为TRUE
 [1]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE FALSE  TRUE  TRUE  TRUE

方法2

在知道Pr2和Pr4在第7个和第9个变量的情况下,可以使用以下语言删除:

> newdata6<-mydata[c(-7,-9)]
> newdata6
  PatientID     Data Age Gender City Pr1 Pr3 Pr5 S1 S2
1         1 03/20/20  18      M 福州  69  11  20 88 67
2         2 03/21/20  25      F 厦门  57  14  34 78 87
3         3 03/22/20  26      F 泉州  67  34  35 NA 45
4         4 03/23/20  35      M 龙岩  65  23  56 56 25
5         5 03/24/20  48      F 漳州  72  35  47 45 NA
6         6 03/25/20  50      M 三明  55  12  19 60 96

方法3

> mydata$Pr2<-mydata$Pr4<-NULL
> mydata
  PatientID     Data Age Gender City Pr1 Pr3 Pr5 S1 S2
1         1 03/20/20  18      M 福州  69  11  20 88 67
2         2 03/21/20  25      F 厦门  57  14  34 78 87
3         3 03/22/20  26      F 泉州  67  34  35 NA 45
4         4 03/23/20  35      M 龙岩  65  23  56 56 25
5         5 03/24/20  48      F 漳州  72  35  47 45 NA
6         6 03/25/20  50      M 三明  55  12  19 60 96

03

subset()函数

subset函数可能是选择变量和观测最简单的方法了。

方法1

#选择mydata中的Age大于等于30或Age小于等于25的行,保留变量Pr1到Pr5。

> newdata9<-subset(mydata,Age>=35|Age<25,aelect=c(Pr1,Pr2,Pr3,Pr4,Pr5))
> newdata9
  PatientID     Data Age Gender City Pr1 Pr3 Pr5 S1 S2
1         1 03/20/20  18      M 福州  69  11  20 88 67
4         4 03/23/20  35      M 龙岩  65  23  56 56 25
5         5 03/24/20  48      F 漳州  72  35  47 45 NA
6         6 03/25/20  50      M 三明  55  12  19 60 96

方法2

#选60岁以上的男性,并保留变量Age到S1之间所有的列。

> newdata10<-subset(mydata,Gender=="M"&Age>25,select=Gender:S1)
> newdata10
  Gender City Pr1 Pr3 Pr5 S1
4      M 龙岩  65  23  56 56
6      M 三明  55  12  19 60

04

SQL语句

之前学过SQL结构化查询语句的人,如果能够将R语言中的sqldf包利用起来实为一件美事。

#安装和加载包

>install.packages("sqldf")
>library(sqldf)

#构建数据

> PatientID<-c(1,2,3,4,5,6)
> Data<-c("03/20/20","03/21/20","03/22/20","03/23/20","03/24/20","03/25/20")
> Age<-c(18,50,26,25,48,35)
> Gender<-c(1,2,1,2,1,2)
> City<-c("福州","厦门","泉州","龙岩","漳州","三明")
> Pr1<-c("69","57","67","65","72","55")
> Pr2<-c("180","155","159","184","167","175")
> Pr3<-c("11","14","34","23","35","12")
> Pr4<-c("6","7","5","8","6","9")
> Pr5<-c("20","34","35","56","47","19")
> S1<-c(88,78,56,56,45,60)
> S2<-c(67,87,45,25,45,96)
> mydata1<-data.frame(PatientID,Data,Age,Gender,City,Pr1,Pr2,Pr3,Pr4,Pr5,S1,S2)
> mydata1
  PatientID     Data Age Gender City Pr1 Pr2 Pr3 Pr4 Pr5 S1 S2
1         1 03/20/20  18      1 福州  69 180  11   6  20 88 67
2         2 03/21/20  50      2 厦门  57 155  14   7  34 78 87
3         3 03/22/20  26      1 泉州  67 159  34   5  35 56 45
4         4 03/23/20  25      2 龙岩  65 184  23   8  56 56 25
5         5 03/24/20  48      1 漳州  72 167  35   6  47 45 45
6         6 03/25/20  35      2 三明  55 175  12   9  19 60 96
>sqldf("select avg(Age) as avg_Age,avg(S1) as avg_S1,City from mydata1 where Gender in (1,2) group by City",row.names=TRUE)#这是指输出mydata1数据框中的性别为男和女的所在城市的年龄Age和S1的均值。
 >avg_Age avg_S1 City
1      35     60 三明
2      50     78 厦门
3      26     56 泉州
4      48     45 漳州
5      18     88 福州
6      25     56 龙岩
> newdata11<-sqldf("select*from mydata1 where Gender order by Age",row.names=TRUE)#是指从mydata1数据框中选择所有变量所在(列),保留Gender所在的行,按照Age进行升序排列,row.names=TRUE将原始数据框中的行名延续到了新数据框newdata1中。
> newdata11

  PatientID     Data Age Gender City Pr1 Pr2 Pr3 Pr4 Pr5 S1 S2
1         1 03/20/20  18      1 福州  69 180  11   6  20 88 67
4         4 03/23/20  25      2 龙岩  65 184  23   8  56 56 25
3         3 03/22/20  26      1 泉州  67 159  34   5  35 56 45
6         6 03/25/20  35      2 三明  55 175  12   9  19 60 96
5         5 03/24/20  48      1 漳州  72 167  35   6  47 45 45
2         2 03/21/20  50      2 厦门  57 155  14   7  34 78 87

小结

R语言最大的优势是绘图,学R的初心就是为了绘制实验过程产生的数据图,然而随着深度学习,会发现,R语言的数据分析也很重要,常常会在绘制图形的过程中,因为数据框中存在格式不统一,字符或者缺失值等原因导致绘图失败。对于非数学专业又喜欢R语言的人来说,学R之路漫漫其修远,没有极客基因是不行的,打好基础是进阶的前提!