R语言入门之频率表和列联表

‍‍

‍‍‍‍‍‍在这一期我们将要学习如何针对分类变量数据创建频率表和列联表，之后在此基础之上进行独立性检验、关联度测量以及相关数据的可视化。

‍

创建频率表和列联表

R语言提供了许多方法来创建频率表和列联表，在这里我们主要介绍三种常用的函数，它们虽有各自的特点，但大同小异，大家在学习中能细细体会出来。

1. 函数table(）

#首先自己创建训练数据（这里的数据是随手编写的，不具有科学性）
#所有的数据都是分类变量（这里选择的是二分类变量）
#建立2维频率表
A <- c(rep("male",15),rep("female",20),rep("male",15))# 创建变量A
B <- c(rep("healthy",4),rep("sick",35),rep("healthy",11)) # 创建变量B
C <- c(rep("smoker",26), rep("nonsmoker",24)) # 创建变量C
mydata <- data.frame(A,B,C) # 利用以创建的变量构建数据框
attach(mydata) #固定目标数据集
mytable <- table(A,B) # 在这里，A变量的信息变成行，B变成列
mytable # 输出表格

‍‍

‍

margin.table(mytable, 1) # 对每一行的数据求和

margin.table(mytable, 2) # 对每一列的数据求和

prop.table(mytable) # 计算每格数据占总数的比例

prop.table(mytable, 1) # 以行为单位，计算其中每个变量的占比，每行求和为1

‍‍

prop.table(mytable, 2) # 以列为单位，计算其中每个变量的占比，每列求和为1

当然table()函数也可以生成高维的数据表（3个及以上的变量），不过这时候使用ftable()函数可能会得到更好的展示效果：

# 创建3维频数表
mytable <- table(A, B, C)
table(A,B,C)

ftable(A,B,C)

从上述结果来看，确实是ftable()函数最后输出的效果更好。

这里需要注意一点，table()函数在生成表格的时候会默认去除NA值，如果想要保留NA,则需要添加参数exclude=NULL。如果在转换成因子时想保留NA值，则需要使用如下方法：

newfactor <- factor(oldfactor, exclude=NULL)

2. 函数xtabs()

在xtabs()函数里你可以使用公式来进行交叉制表:

# 构建3维频数表
mytable <- xtabs(~A+B+C, data=mydata)
ftable(mytable) # 使用ftable()函数简洁输出3维表格
summary(mytable) # 独立性检验（列联表的卡方检验）

加入一个变量出现在了公式的左侧，那么它就是一个计算好的频数向量

# 例如
DF <- as.data.frame(UCBAdmissions) #DF是一个已经做好的表格，Freq是统计好的频数
xtabs(Freq ~ Gender + Admit, DF) #将不同类的频数相加

3. 函数CrossTable()

CrossTable()是一个来自“gmodel”包的强大制表函数，它有很多功能选项，可以进行卡方检验，Fisher检验，McNemar检验，相关残差项的计算以及数据标准化等等。但是由于这些功能我们也可以通过R的基本函数来实现，所以这里就不对CrossTable()这个函数进行过多讲解，感兴趣的朋友可以使用方法?CrossTable()自行了解和学习。

‍‍‍

‍