R语言入门之数据的导入和导出

第一部分导入数据（Importing Data）

在我们平时的研究工作中，经常使用的是逗号分隔文件（.csv文件）、制表符分隔文件（.tsv文件）和空格分隔文件（.txt文件）。当然对于一些基因组文件或者其它格式的文件，各自有各自的特点，原则上R语言可以读取任何格式的文件，只需掌握基本的读取文件方法后按照不同特点调整参数即可。

1. 使用一般方法读取文件（也即文件名以.csv为后缀的文件）

（1）读取逗号分隔文件

#通常文件第一行是题头（也称列名），逗号是文件内容的分隔符
#尤其需要注意的是在windows操作系统中文件路径需用‘/‘来分隔
#第一个参数是读入的文件（由文件所在路径及其文件名构成）
#第二个参数是指定是否将第一行作为列名，TRUE表示第一行即为列名
#第三个参数是指定分隔符
#第四个是指定行名所在的列，指定列名为“id”这一列的数据为行名
mydata <- read.table("c:/mydata.csv", header=TRUE,
   sep=",", row.names="id")

（2）读取制表符分隔文件

制表符其实就是指键盘上的Tab键，正常情况下一个制表符长度等于四个空格的长度。

#读取制表符分隔文件和读取逗号分隔文件的方法很类似
#唯一不同可能就在与sep这个参数后边的值是t，实际上t就是指制表符
mydata <- read.table("c:/mydata.tsv", header=TRUE,
   sep="t", row.names="id")

（3）读取普通的txt文件

#因为read.table()这个函数sep的默认值是空格，所以读取txt文件一般不需要设置sep的参数值
mydata <- read.table("c:/mydata.txt", header=TRUE, row.names="id")

另外如果想读取csv文件，也可以使用read.csv()函数，它和read.table()类似，只是不需要设置sep参数，会方便一些。

2. 直接高效读取以.gz结尾的压缩文件

一般在R中可以使用gzfile()的方式读取压缩文件，但如果使用data.table包里的fread()函数则可以大大提高工作效率。具体方法如下：

#安装并加载data.table包
#使用fread()函数读取文件，这里参数和之前的一致
#唯一的不同就是fread()可以直接读取压缩文件
install.packages(‘data.table’)
library(data.table)
mydata <- fread(‘c:/mydata.txt.gz’, header=T, row.names=’id’)

第二部分导出数据（Exporting Data）

在R语言中有很多方法可以导出各种类型的数据，但常用的文件格式也就第一部分中主要涉及的三类，即逗号分割文件、制表符分隔文件以及空格分隔文件。

1. 导出数据为csv文件

#第一个参数是需要导出的数据名称
#第二个参数是导出后新文件的名称
#第三个参数是指文件的分隔符
#导出数据和导入数据的参数类似，只是所使用的函数不同
write.table(mydata, "c:/mydata.csv", sep=",")

当然也可以直接用write.csv()函数导出csv格式的文件

2. 导出数据为tsv文件

write.table(mydata, "c:/mydata.tsv", sep="t")

3. 导出数据为txt文件

write.table(mydata, "c:/mydata.txt")

Tips：

（1）使用?function()的形式查阅函数的帮助信息，比如?read.table(); 也可以用??function()的方法

（2）推荐刚入门的小伙伴下载Rstudio，使用起来很方便

（3）data.table这个包的一些功能可能依赖其它包，需要将其依赖包也安装上