R语言-如何读取前n行数据

2025-02-08 00:14:28

通常我们读取文件时都会读取全部的文件然后再进行操作，但是当读取的数据量很大是读取的时间会很长，而且占用RAM，对于写测试代码有点不方便。

所以只读取前n行数据是一个挺不错的函数

##file：读取文件路径
##n：读取的前n行
##header：是否有标题行
readfile<-function(file, n=1000, header=T){
  pt <- file(file, "r")
  name <- NULL
  if(header){
    name <- strsplit(readLines(pt, 1), split=',')[[1]];  #读取标题
    f1 <- readLines(pt, n)
    data <- read.table(text=f1, sep=',', col.names=name)
  }else{
    data <- read.table(text=f1, sep=',')
  }
  close(pt)
  data
}

测试，最近制作linux启动盘误将移动硬盘当U盘，要死要死的，近500G资料丢失，因为制成启动盘所以资料还找不回来。

所以没有大型数据做测试。

之前200M的文件本人电脑上读取前10000行也是秒读的。

(data <- readfile(file="mtcars.csv", n=5, header=T))
       X..        X.mpg. X.cyl. X.disp. X.hp. X.drat.  X.wt.
1       Mazda RX4   21.0    6   160     110    3.90   2.620
2   Mazda RX4 Wag   21.0    6   160     110    3.90   2.875
3      Datsun 710   22.8    4   108      93    3.85   2.320
4  Hornet 4 Drive   21.4    6   258     110    3.08   3.215  

class(data)
[1] "data.frame"

补充：R语言（数据读写操作）

本节介绍一些实用的数据处理函数（如行、列合并），以及如何从各种数据源读、写数据。

实用函数

函数	含义
length()	对象的长度。如 2 行 3 列的矩阵，其长度为 6。
dim()	对象的维度。如 2 3 表示对象是二维的，有 2 行 3 列。
str()	对象的结构。常用于查看数据框各列的数据类型、或者因子的分级数量。
class()	对象的类。比如矩阵的返回结果是 matrix。
typeof()	对象内数据的类型。比如矩阵的返回结果是 integer。
mode()	对象的模式。比如矩阵会返回 numeric。
names()	对象中各成分的名称。
cbind()	按列合并多个对象。
rbind()	按行合并多个对象。
objectname	输出对象。
head()	输出对象的前部，对于数据框而言是前6行。通过 head(obj, N) 来指定输出前 N 行。
tail()	类似地，输出对象的后部。
ls(NULL)	无参数函数。显示当前所有对象的名称列表。
rm()	删除单个或多个对象。使用 rm(list = ls()) 可以删除除句点开头的隐藏对象外的所有对象。

一个 ls() 函数的例子：

a <- matrix(1:6, nrow=2, ncol=3)ls() # 目前的对象只有 a

‘a'

手动输入

使用需要赋值的 edit() 函数，或者无需写在赋值语句内的 fix() 函数。

dt <- data.frame(age = numeric(0), gender = character(0), weight = numeric(0))# dt <- edit(dt)  # 需要自赋值# fix(dt)  # 无需自赋值

遗憾的是，在 Jupyter Notebook 现行的版本中，尚且不支持 edit() 函数。不过用户可以使用 fix() 函数。

读取文件

关于怎样读取来自 URL 地址的网络文件，R 可以实现，但这里不做讨论。以下只讨论本地数据源的读写。

分隔符文件

利用 read.table() 函数即可。其常用的参数有：

read.table(file, [header=T/F, sep=" ", row.names=, col.names=, na.strings=,
       colClasses=, quote=, skip=, stringAsFactors=T/F,])

其中，可选参数的含义大多较好理解：

header 表示文件首行是否是列名而不是数据；

sep 是列间分隔符；na.strings 指定一个字符向量，内部所有的元素在读取时会被转换为 NA；

colClasses 用于指派各列的类型，如 =c(“numeric”, “character”, “NULL”) 指定了前两列的类型并跳过了第三列；

skip 用于跳过文件的最开始的若干行；

stringAsFactors 为 TRUE（默认值）时表示字符向量按因子处理，设为 FALSE 可以提升大文本处理速度。

data.path <- paste(getwd(), '/data/iris.data.csv', sep='')dt <- read.table(data.path, header=T, sep=",")head(dt)

X5.1	X3.5	X1.4	X0.2	Iris.setosa
4.9	3.0	1.4	0.2	Iris-setosa
4.7	3.2	1.3	0.2	Iris-setosa
4.6	3.1	1.5	0.2	Iris-setosa
5.0	3.6	1.4	0.2	Iris-setosa
5.4	3.9	1.7	0.4	Iris-setosa
4.6	3.4	1.4	0.3	Iris-setosa

# 利用 str() 函数查看其信息str(dt)

'data.frame':	149 obs. of  5 variables:
 $ X5.1       : num  4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 5.4 ...
 $ X3.5       : num  3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 3.7 ...
 $ X1.4       : num  1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 ...
 $ X0.2       : num  0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 0.2 ...
 $ Iris.setosa: Factor w/ 3 levels "Iris-setosa",..: 1 1 1 1 1 1 1 1 1 1 ...

须知：

如果列名中包含空格，R 会将空格替换为句点。

多数情况下，stringAsFactors 可以设为 FALSE。但是本例中的字符变量表示植物的种类，此处读成因子是正确的。

函数 read.csv() 能够读取 csv 文件，但是功能不如 read.table() —— 后者能处理非 csv 文本。

处理 Excel 文件

读取一个 Excel 文件最佳的方式，是预先将其转为 csv 格式，并用上述的 read.table() 方法读取。

你也可以查找关于 xlsx 包的相关内容，来获知如何直接操作 xlsx 文件。此处略过不提。

可以看一下以前写的文章：

统计软件数据：SAS/SPSS/Stata

需要用到 foreign 包。

SAS：使用 read.ssd()。如果你安装了 SAS，可以使用 Hmisc 包的 sas.get()。

SPSS：使用 read.spss()，或者 Hmisc 包的 spss.get()。

Stata：使用 read.data()。

数据库

一个方法是使用 ODBC 接口。针对你的数据库类型，安装 ODBC 驱动；然后在 R 中安装 RODBC 包。

另一个方法是使用 JDBC 接口，只不过需要 RJDBC 包。

写入文件

在我们对于数据进行清洗之后，往往需要把清洗结果输出到一个新文件中。这里就以 csv 格式为例吧。一个通常的 write.table()/write.csv() 的例子：

write.csv(dt, "filename.csv", row.names=F)

其中 row.names 指定为 FALSE，否则第一列会生成行号一样的数据。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

R语言 install.packages 无法读取索引的解决方案

问题描述在公司的Centos服务器上安装R的包,总是安装不成功,然后有如下提醒: Warning: 无法在貯藏處https://mirrors.ustc.edu.cn/CRAN/src/contrib中读写索引 Warning message: package 'DBI' is not available (for R version 3.2.2) 问题修复 [更好的方案请直接看最后边PS] 执行下边这条命令,随便选几个源. setRepositories(addURLs = c(CRANxt
R语言-如何循环读取excel并保存为RData

之前写过一个循环读取excel的代码,最近又有了新的需求:循环读取xlsx文件中的多个sheet,处理完之后循环输出到xlsx文件中的多个sheet中,总结一下. 1.循环读取csv文件并输出为RData格式 homedir <- "D:/Documents/tina/Database" #设置路径 setwd(homedir) temp = list.files(pattern="*.csv") for (i in 1:length(temp)) { fil
R语言数据读取以及数据保存方式

一.R语言读取文本文件: 1.文件目录操作: getwd() : 返回当前工作目录 setwd("d:/data") 更改工作目录 2.常用的读取指令read read.table() : 读取文本文件 read.csv(): 读取csv文件如果出现缺失值,read.table()会报错,read.csv()读取时会自动在缺失的位置填补NA 3.灵活的读取指令 scan() : 4.读取固定宽度格式的文件: read.fwf() 文本文档中最后一行的回车符很重要,这是一个类似于停止符
R语言读取excel数据的方法(两行命令)

安装库安装xlsx install.packages("xlsx") 使用 library(xlsx) ray = read.xlsx('D:/Code/R/Data in Excel/Chapter 8/gamma-ray.xls',1) 后面的参数,第一个放地址,第二个放具体sheet页(这里除了可以放数值之外,还可以放对应的名字(字符串)).除此之外,还可以使用encoding="utf-8"的方式来定义使用中文数据. 效果: > a = read.x
R语言读取csv文件出错的解决方案

今天在用R语言读取.csv文件的时候报错 Error in make.names(col.names, unique = TRUE) : invalid multibyte string 5 上网查了很久才知道原来是格式的问题(保存文件格式的编码不正确) 重新保存正确的格式就没有问题了~ 补充:R语言读取csv文件,第一列列名出现乱码的解决方法在利用R语言读取csv文件时,第一列列名总是出现乱码,代码如下: setwd("E:\2.Model\4. Simulation") #设定文
R语言-如何读取前n行数据

通常我们读取文件时都会读取全部的文件然后再进行操作,但是当读取的数据量很大是读取的时间会很长,而且占用RAM,对于写测试代码有点不方便. 所以只读取前n行数据是一个挺不错的函数 ##file:读取文件路径 ##n:读取的前n行 ##header:是否有标题行 readfile<-function(file, n=1000, header=T){ pt <- file(file, "r") name <- NULL if(header){ name <- strs
R语言之xlsx包读写Excel数据的操作

感谢Adrian A. Drǎgulescu发布的xlsx包 xlsx包提供了必要的工具来与Excel 2007进行交互.用户可以阅读和编写xlsx,并可以通过设置数据格式.字体.颜色和边框来控制电子表格的外观.设置打印区域,缩放控制,创建分割和冻结面板,添加页眉和页脚.包使用Apache POI项目中的java库.本篇主要分享利用xlsx工具包在读写xlsx过程中所碰到的问题及解决办法. 工具准备强烈建议大家使用RStudio这个IDE,它是以今为止对R语言最友好的一个IDE之一,而且使用很
R语言批量读取某路径下文件内容的方法

R刚入门的时候,能够正确读取单个文件就觉得小有成就,随着时间的积累,单一文件地读取已经不能满足需求了,此时,批量地做就是解放双手地过程. 使用for循环把下载地TCGA数据读入R语言并转换成数据框使用三个for循环来完成,这是第一个for循环. 1. 把所有数据读入在一个文件夹中 dir.create("data_in_one") #创建目标文件夹,也可右键创建 dir("rawdata/") #查看原路径的内容 for (dirname in dir("
python 读取文本文件的行数据,文件.splitlines()的方法

一般跟踪训练的ground_truth的数据保存在文本文文件中,故每一行的数据为一张图片的标签数据,这个时候读取每一张图片的标签,具体实现如下: test_txt = '/home/zcm/tensorf/siamfc-tf-master/data/Biker/groundtruth.txt' def load_label_set(label_dir): label_folder = open(label_dir, "r") trainlines = label_folder.read
R语言入门教程之删除指定数据的方法

引言在R学习中经常用到的是按着某种逻辑值提取数据集.本文来讲一下利用索引的手法删除数据集合. 数据准备 > Data 英雄职业熟练等级使用频次胜率 1 后裔射手 5 856 0.64 2 孙尚香射手 5 211 0.10 3 狄仁杰射手 5 324 0.20 4 李元芳射手 4 75 0.30 5 安琪拉法师 5 2324 0.40 6 张良法师 4 755 0.50 7 不知火舞法师 4 644 0.60 8 貂蝉法师 3 982 0.70 9 <NA> &l
sql server删除前1000行数据的方法实例

近日,sql数据库入门学习群有朋友问到,利用sql如何删除表格的前1000行数据,是否可以实现? 如果是oracle数据库管理软件,实现起来相对简单多了 delete from 表名 where rownum<=1000; 那sql server数据库管理软件呢? sql server里没有rownum功能,小编尝试用select top 先查询看下结果集,select * from 表名: delete from 表名 where 条码 in (select top 10 条码 from 表名
R语言使用cgdsr包获取TCGA数据示例详解

目录 TCGA数据源 TCGA数据库探索工具查看任意数据集的样本列表方式选定数据形式及样本列表后获取感兴趣基因的信息,下载mRNA数据选定样本列表获取临床信息综合性获取下载mRNA数据获取病例列表的临床数据从cBioPortal下载点突变信息从cBioPortal下载拷贝数变异数据把拷贝数及点突变信息结合画热图 TCGA数据源众所周知,TCGA数据库是目前最综合全面的癌症病人相关组学数据库,包括的测序数据有: DNA Sequencing miRNA Sequencing P
oracle数据排序后获取前几行数据的写法(rownum、fetch方式)

目录 0. 前言 1. 先说结论 2. 举个例子 1. 数据准备 2. 使用rownum方式获取前几行数据 3. 使用fetch方式获取前几行数据(推荐) 总结 0. 前言无论在工作中,还是学习中,都会出现这样子的需求,对某张表进行了排序(按时间排序也好,其他字段排序也罢),然后获取前x行的数据,由于工作中经常出现,因此写篇文章记录一下多种写法. 1. 先说结论第一种使用rownum方式,在oracle数据库中,查询出来的数据,可以通过rownum(行数)来指定具体第几行数据,但需要注意以下
R语言求一行(列表、list)数据的平均数操作

R语言求一个列表的平均数可以使用mean() : mean英文意思有平均数的含义 x=c(1,3,5,7,9) max(x) #这样即可求得平均数为 : 5 假如读取过一个csv文件之后,要求其中一行数据中指定某个区间内的平均数可以使用rowMeans() data = read.csv("input.csv",sep=",",header=T) rowMeans(data[10:17]) 补充:R语言-数据框分组求平均值 [技术关键] 1.从excel把数据读到数
R语言如何获取指定位置的数据

R语言-获取指定位置的数据 R中采用数据对象+[ , ]的方式获取对应位置的数据,根据填入索引参数的不同类型可具体分为: 正整数.负整数.零.空格.逻辑值.名称 > matrix [,1] [,2] [,3] [,4] [,5] [1,] 1 5 9 13 17 [2,] 2 6 10 14 18 [3,] 3 7 11 15 19 [4,] 4 8 12 16 20 1.正整数索引因为R中的起始位置为1,与一般的编程语言不同,所以这类索引最为常见. 需要注意的是,如果索引中存在重复值,R会继