R语言读取xls与xlsx格式文件过程

目录
  • 1. ROOBC
  • 2. xlsReadWrite
  • 3. XLConnect
  • 4. xlsx
    • 1)装Java
    • 2)装xlsx
    • 3)实际使用

在数据分析的过程中,第一步就是读取数据。

通常我们遇到的数据是csv格式或者txt格式的数据,这时我们使用系统自带的read.csv()read.table()就可对这些格式的数据进行读取,只是读取时需注意编码格式。对于大型csv格式的数据(当然小数据也可以),可以使用data.table包中的fread()进行读取可以极大地提升读取速度。

但当遇到了Excel表生成的文件,读取起来相对就没有那么友好。之前的做法是简单粗暴地直接将我们的xls或xlsx文件利用Excel转化为csv文件后再进行读取,亦或者直接就用Python使用pandas库进行处理,然后就在Python中进行分析。

就是由于之前几次碰壁,使用网上推荐的一些包来进行读取,但都以失败告终。不过这次还是决定解决这个“顽疾”,对xls与xlsx这两种文件用R进行读取。

这几种方法主要参考:Read Excel files from R

1. ROOBC

这个包中有函数可以读取xlsx格式的文件,但对于现在的我们而言,绝大多数人的电脑都不能使用这个包,因为其只能用于32位系统的Windows,所以这里不对这个包进行赘述。

2. xlsReadWrite

只能从GitHub中获得,CRAN上还没有,也不进行过多的赘述。

3. XLConnect

要依赖java,并且对于大数据情况读取非常慢。但实际上自己使用的时候,安装了java后,还是没法使用这个包。可能是某些步骤设置出现了问题。

若有童鞋对前面的三个包非常感兴趣,其详细的用法可以参考前面的参考网址。

4. xlsx

这个包是目前用的最多,也是R中可以说最好用的读取Excel文件的利器。

下面专门对其进行介绍。首先我们先说明这个包的依赖文件,不仅仅只是依赖R中的一些包,而是需要单独安装java。

1)装Java

安装链接:https://www.java.com/zh_CN/download/

我们按照指引选择默认路径安装,安装完成后,在C:\Program Files下出现了Java文件,说明安装成功。(注:有些地方说需要将Java文件添加到全局变量中,后面的xlsx包才能调取成功,但其实在这两天的实际安装中发现,自己的电脑并不需要,可能得看脸。)

2)装xlsx

安装xlsx其实没什么好说的,就正常安装,然后它会自动将所需要的rjava等依赖库,最后成功安装xlsx库。

3)实际使用

最后我们就能直接使用啦,下面来讲一下其代码格式:

library(xlsx)
dat <- read.xlsx("data.xlsx", sheetName = "Sheet1", encoding = 'UTF-8')

一个标准的数据读取如上所示,下面将几个常用的参数:

"data.xlsx":表示读取数据的名称。

sheetName:表示读取表中表的名称,通常第一个就是Sheet1

encoding:这个在读取中文数据的时候是一定要加上的,不然读取数据会出现乱码。

sheetIndex:表示读取文件中第几个表,sheetIndex = 1表示读取文件中第一个表。

需要特别注意:当文件中我们的表明为中文字时,不能使用类似sheetName = "表1"进行读取,即使加上encoding = 'UTF-8'也会出现读取错误,这时就需要使用sheetIndex来进行读取。

以上就是R语言读取xls与xlsx格式文件过程的详细内容,更多关于R读取文件的资料请关注我们其它相关文章!

(0)

相关推荐

  • R语言-如何读写带分隔符的文件

    有众多的格式和文本文件标准可用于存储数据.用于存储数据的通用格式为分隔符值(即CSV或制表符分割文件).可扩展标记语言(XML).JavaScript对象表示法(JSON) 将数据存储在文本文件中的主要优点是:他们可被几乎所有的其他数据分析软件或人读取 R语言提供丰富的函数来读取不同格式的数据,包括: 文本文件(TXT文件) 逗号分隔文件(CSV文件) TXT文件--read.table() 矩形(类似电子表格的)数据通常存储在带有分隔符的文件中,特别是逗号分隔值(CSV)和制表符分隔值文件.r

  • R语言数据读取以及数据保存方式

    一.R语言读取文本文件: 1.文件目录操作: getwd() : 返回当前工作目录 setwd("d:/data") 更改工作目录 2.常用的读取指令read read.table() : 读取文本文件 read.csv(): 读取csv文件 如果出现缺失值,read.table()会报错,read.csv()读取时会自动在缺失的位置填补NA 3.灵活的读取指令 scan() : 4.读取固定宽度格式的文件: read.fwf() 文本文档中最后一行的回车符很重要,这是一个类似于停止符

  • R语言实现二进制文件读写操作

    二进制文件是一个文件,其中包含仅以位和字节形式存储的信息(0和1),它们是不可读的,因为其中的字节转换为包含许多其他不可打印字符的字符和符号,随便我们尝试使用任何文本编辑器读取二进制文件将显示为类似Ø和ð这样的字符. 但是二进制文件必须由特定程序读取才能使用.例如,Microsoft Word程序的二进制文件只能通过Word程序读取到人类可读的形式.这表明,除了人类可读的文本之外,还有更多的信息,如格式化的字符和页码等,它们也与字母数字字符一起存储.最后,二进制文件是一个连续的字节序列. 我们在

  • R语言文本文件读写(txt/csv/xlsx)

    本文主要介绍了R语言文本文件读写,分享给大家,具体如下: read.table(file,sep,hesder) #file 文件路径 #sep 分隔符 #header 第一行是不是列名(如果第一行是列名导入的时候填TRUE:默认值是FALSE,即把第一行算作数据) 准备工作 为方便后面使用的相对路径,我们先使用setwd(路径)设置路径,设置好之后可以用getwd() 获取当前路径进行检查. > setwd("F:/r-test-data") > getwd() [1]

  • R语言读取xls与xlsx格式文件过程

    目录 1. ROOBC 2. xlsReadWrite 3. XLConnect 4. xlsx 1)装Java 2)装xlsx 3)实际使用 在数据分析的过程中,第一步就是读取数据. 通常我们遇到的数据是csv格式或者txt格式的数据,这时我们使用系统自带的read.csv()与read.table()就可对这些格式的数据进行读取,只是读取时需注意编码格式.对于大型csv格式的数据(当然小数据也可以),可以使用data.table包中的fread()进行读取可以极大地提升读取速度. 但当遇到了

  • R语言读取csv文件出错的解决方案

    今天在用R语言读取.csv文件的时候报错 Error in make.names(col.names, unique = TRUE) : invalid multibyte string 5 上网查了很久才知道原来是格式的问题(保存文件格式的编码不正确) 重新保存正确的格式就没有问题了~ 补充:R语言读取csv文件,第一列列名出现乱码的解决方法 在利用R语言读取csv文件时,第一列列名总是出现乱码,代码如下: setwd("E:\2.Model\4. Simulation") #设定文

  • python操作xlsx格式文件并读取

    之前给大家介绍过python高手之路python处理excel文件(方法汇总)  Python操作Excel之xlsx文件 今天继续围绕python xlsx格式文件的操作方法给大家介绍,具体内容如下: 一.准备工作 二 .xlrd库读取 首先安装xlrd库,安装方法:pip install xlrd import xlrd #打开excel wb = xlrd.open_workbook('test_user_data.xlsx') #按工作簿定位工作表 sh = wb.sheet_by_na

  • R语言统计结果输出至本地文件的几种方法示例

    1.sink() 在代码开始前加一行:sink("output.txt"),就会自动把结果全部输出到工作文件夹下的output.txt文本文档.这时在R控制台的输出窗口中是看不到输出结果的.代码结束时用sink()切换回来. 示例: sink("a.txt") x<-rnorm(100,0,1) mean(x) sink() 注:此处输出为mean(x). 2.stargazer() library(stargazer) #导入数据 mydata <-

  • R语言读取excel数据的方法(两行命令)

    安装库 安装xlsx install.packages("xlsx") 使用 library(xlsx) ray = read.xlsx('D:/Code/R/Data in Excel/Chapter 8/gamma-ray.xls',1) 后面的参数,第一个放地址,第二个放具体sheet页(这里除了可以放数值之外,还可以放对应的名字(字符串)).除此之外,还可以使用encoding="utf-8"的方式来定义使用中文数据. 效果: > a = read.x

  • C语言读取和存储bmp格式图片

    开发过程中有时候需要解析bmp数据,下面先简单介绍bmp数据组成,后面附上C语言读取和存储bmp格式图片代码. 典型的位图文件格式通常包含下面几个数据块: 1.BMP文件头:保存位图文件的总体信息. 2.位图信息头:保存位图图像的详细信息.位图信息:保存位图图像的详细信息. 3.调色板:保存所用颜色的定义.调色板:保存所用颜色的定义. 4.位图数据:保存一个又一个像素的实际图像.位图数据:保存一个又一个像素的实际图像. 1. BMP文件头(14字节) BMP文件头数据结构含有BMP文件的类型.文

  • R语言rhdf5读写hdf5并展示文件组织结构和索引数据

    前言 h5只是一种简单的数据组织格式[层级数据存储格式(HierarchicalDataFormat:HDF)],该格式被设计用以存储和组织大量数据. 在一些单细胞文献中,作者通常会将分析的数据上传到GEO数据库保存为.h5格式文件,而不是我们常见的工程文件(rds文件,表格数据等),所以为了解析利用这些数据需要对hdf5格式的组织结构有一定的了解. (注:在Seurat包中有现成的函数Seurat::Read10X_h5()可以用来提取表达矩阵,但似乎此外无法从h5文件中提取更多的信息). G

  • R语言刷题检验数据缺失类型过程详解

    目录 题目 解答 下面考虑三种情况: 1. a = 0, b = 0 2. a = 2, b = 0 3. a = 0, b = 2 题目 解答 由于题目要求需要重复三次类似的操作,故首先载入所需要的包,构造生成数据的函数以及绘图的函数: library(tidyr) # 绘图所需 library(ggplot2) # 绘图所需 # 生成数据 GenerateData <- function(a = 0, b = 0, seed = 2018) { set.seed(seed) z1 <- r

  • python读取与写入csv格式文件的示例代码

    在数据分析中经常需要从csv格式的文件中存取数据以及将数据写书到csv文件中.将csv文件中的数据直接读取为 dict 类型和 DataFrame 是非常方便也很省事的一种做法,以下代码以鸢尾花数据为例. csv文件读取为dict 代码 # -*- coding: utf-8 -*- import csv with open('E:/iris.csv') as csvfile: reader = csv.DictReader(csvfile, fieldnames=None) # fieldna

随机推荐