R语言:实现因子与字符串的互转

2025-02-03 04:23:30

在导入大批量数据时，如果没有显式地指定“stringsAsFactors = FALSE”，默认会将所有的字符串转换为因子，导致数据处理速度较慢。

示例数据如下：

name,math,english,sex,year
"yiifaa",65,68,"M",2018
"yiifee",95,98,"F",2018
"guagua",75,78,"M",2018
"MM",85,88,"F",2018

查看数据概要，发现默认将字符串转换为因子，并进行了分组计数(这也是处理速度较慢的原因之一)

概要如下：

  name        math         english     sex        year
 guagua:1   Min.   :65.0   Min.   :68.0   F:2   Min.   :2018
 MM    :1   1st Qu.:72.5   1st Qu.:75.5   M:2   1st Qu.:2018
 yiifaa:1   Median :80.0   Median :83.0         Median :2018
 yiifee:1   Mean   :80.0   Mean   :83.0         Mean   :2018
            3rd Qu.:87.5   3rd Qu.:90.5         3rd Qu.:2018
            Max.   :95.0   Max.   :98.0         Max.   :2018

但这样的分组计数并没有意义，所以需要利用“as.character”转换为字符，如下：

#! /usr/bin/env RScript
setwd("D:/Workspace/R-Works/R-Stat")
scores <- read.table("Score.txt", header = TRUE, sep = ",", quote="\"", encoding = "UTF-8", stringsAsFactors = TRUE)
# 将因子转换为字符
scores$name <- as.character(scores$name)
# 多转一个进行测试
scores$sex <- as.character(scores$sex)

再次查看概要，如下：

name                math         english         sex                 year
 Length:4           Min.   :65.0   Min.   :68.0   Length:4           Min.   :2018
 Class :character   1st Qu.:72.5   1st Qu.:75.5   Class :character   1st Qu.:2018
 Mode  :character   Median :80.0   Median :83.0   Mode  :character   Median :2018
                    Mean   :80.0   Mean   :83.0                      Mean   :2018
                    3rd Qu.:87.5   3rd Qu.:90.5                      3rd Qu.:2018
                    Max.   :95.0   Max.   :98.0                      Max.   :2018

可以看到，概要中已经没有了分组计数，但多了总数计量，如果要恢复分组计数，则需要重新创建因子，如下：

scores$sex <- factor(scores$sex, levels=c("M", "F"), ordered = TRUE)

结论

在导入大批量数据时，为了提高性能，尽可能分两步走：

1. 显式指定“stringsAsFactors = FALSE”；

2. 依次将所需要的数据列(向量)转换为因子；

补充：R语言：变量名称和字符串的转换

在R语言中，经常会遇到变量名称和字符串相互转换的问题。

比如说，进行1000次循环运算，并将运算结果存储在1000个变量中，如x_1, x_2, ... , x_1000。这时候可以使用assign()函数，示例如下：

> a
错误: 找不到对象'a'
> assign('a', 1)
> a
[1] 1

上面的例子将字符'a'转变为变量a，并将其赋值为1 。

相反，如果我们想遍历一个变量序列，并对其中的每一个变量都进行操作，该怎么办呢？我们可以使用get()函数。示例如下：

> a <- 1
> b <- 2
> c <- 3
> sequence <- c('a', 'b', 'c')
> for (var in sequence){print(var + 10)}

错误于var + 10 : 二进列运算符中有非数值参数

> for (var in sequence){print(get(var) + 10)}
[1] 11
[1] 12
[1] 13

我们可以发现，get函数将字符var转变为变量，并根据变量的值进行后续操作。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

R语言gsub替换字符工具的具体使用

gsub()可以用于字段的删减.增补.替换和切割,可以处理一个字段也可以处理由字段组成的向量. 具体的使用方法为:gsub("目标字符", "替换字符", 对象) 在gsub函数中,任何字段处理都由将"替换字符"替换到"目标字符"这一流程中实现,令替换字符为''''可实现删除,令替换字符为"目标字符+增补内容"可实现增补,替换和切割也是使用类似的操作. > text <- "AbcdE
R语言中字符串的拼接操作实例讲解

在R语言中 paste 是一个很有用的字符串处理函数,可以连接不同类型的变量及常量. 函数paste的一般使用格式为: paste(..., sep = " ", collapse = NULL) 其中-表示一个或多个R可以被转化为字符型的对象:参数sep表示分隔符,默认为空格:参数collapse可选,如果不指定值,那么函数paste的返回值是自变量之间通过sep指定的分隔符连接后得到的一个字符型向量:如果为其指定了特定的值,那么自变量连接后的字符型向量会再被连接成一个字符串,之间
R语言拼接字符串_paste的用法说明

R中自带的字符串连接的函数是paste. 先来看一下官方文档里对paste用法的解释: 基本格式: paste (-, sep = " ", collapse = NULL) 其中,-表示对象,可以有多个,中间用逗号隔开. sep表示分隔符,默认为空格. collapse表示如果不指定值,那么函数paste的返回值是-的对象之间通过sep指定的分隔符连接后得到的一个字符型向量:如果为其指定了特定的值,那么自变量连接后的字符型向量会再被连接成一个字符串,之间通过collapse的值分隔.
R语言-如何截取变量中指定位置的若干个字符

例如,某数据库如下,需要把第二个变量里面的ID号码(格式为T-20-252-02)提取出来作为一个新变量. 命令如下: b=readWorksheetFromFile(temp[11],sheet=1) 读入excel数据,命名为数据库b,这里temp[11]是读入temp中第11个文件名对应的文件 attach(b) attach数据库,之后即可直接用变量名file, 否则要用b$file b$id=substr(File,regexpr("T",File),regexpr(&quo
R语言字符串知识点总结及实例分析

在R语言中的单引号或双引号对中写入的任何值都被视为字符串. R语言存储的每个字符串都在双引号内,即使是使用单引号创建的依旧如此. 在字符串构造中应用的规则在字符串的开头和结尾的引号应该是两个双引号或两个单引号.它们不能被混合. 双引号可以插入到以单引号开头和结尾的字符串中. 单引号可以插入以双引号开头和结尾的字符串. 双引号不能插入以双引号开头和结尾的字符串. 单引号不能插入以单引号开头和结尾的字符串. 有效字符串的示例以下示例阐明了在 R 语言中创建字符串的规则. a <- 'Start
R语言-实现将向量转换成一个字符串

将向量a,b装换成一个字符串,其中: a=c(1,2,3,4) b=c(2,3,4,5) 为了将其转化成一个字符串可以通过引入包stringr,使用str_c实现,使用paste也一样可以达到目的,如下: library(stringr) a_b=str_c(a,b,collapse='') paste(a,b,sep='') 输出为: [1] "12233445" 在实际的数据处理中看可以用来给数据框建联合索引,比如数据框中需要用到的索引列联接成一列,则在实际中可以方便很多,避免很多
R语言实现将数据框中的字符类型数字转换为数值

场景1 我现在有一个数据框datexpr,里面的数字都是以字符型表示的,像这样 > datexpr[1,1] [1] " 1.143773961" 现在我想把这个数据框中的字符型数字全部转为数值型数字使用下面语句即可 datexpr2=as.data.frame(lapply(datexpr,as.numeric)) 现在再次查看,就是数值型啦,整个数据框中的内容也都是数值型的啦 > datexpr2[1,1] [1] 1.143774 场景2 我现在有一个数据框date
R语言:实现因子与字符串的互转

在导入大批量数据时,如果没有显式地指定"stringsAsFactors = FALSE",默认会将所有的字符串转换为因子,导致数据处理速度较慢. 示例数据如下: name,math,english,sex,year "yiifaa",65,68,"M",2018 "yiifee",95,98,"F",2018 "guagua",75,78,"M",2018 &quo
R语言中因子相关知识点详解

因子是用于对数据进行分类并将其存储为级别的数据对象. 它们可以存储字符串和整数. 它们在具有有限数量的唯一值的列中很有用. 像"男性","女性"和True,False等.它们在统计建模的数据分析中很有用. 使用factor()函数通过将向量作为输入创建因子. 例 # Create a vector as input. data <- c("East","West","East","North
R语言中的因子类型详解

一.Factor函数 #函数factor可以把一个向量编码为一个因子,其一般形式为: #factor(x,levels=sort(unique(x),na.last=TRUE),labels,exculde=NA,order=FALSE) #其中x是向量,levels是水平,可以自行指定各离散的取值,不指定时由x的不同值来表示,labels可以用来指定各水平的标签 #不指定时用各离散取值的对应字符串 sex<-c("M","F","M",&
R语言strsplit函数用法深入详解

1.R语言strsplit用于分割字符串创建测试数据 > test <- "aa bb cc dd ee ff" ##创建测试数据 > test [1] "aa bb cc dd ee ff" > class(test) ## 测试数据为字符 [1] "character" 2.按照指定分隔符拆分字符串 > a <- strsplit(test,split = " ") ##制动分隔符为空
R语言实现将factor转换成numeric方法

方法1: such as : x <- factor(c(3,4,5,1)) as.numeric(x) [1]2 3 4 1 最好是这样: as.numeric(levels(x)[x]) [1] 3 4 5 1 方法2: as.numeric(as.character()) 该方法最好! 方法3: read.table时候就读成数值型,R读的时候默认"NA"是missing,如果你的数据不是用NA来表示missing,那么这一列就读成string或者factor了补充:R语
R语言因子类型的实现

目录 1.因子 2.table()函数 3.tapply()函数 4.forcats包的因子函数 1.因子 R 中用因子代表数据中分类变量 , 如性别.省份.职业.有序因子代表有序量度,如打分结果,疾病严重程度等. 用 factor() 函数把字符型向量转换成因子,如 x <- c(" 男", " 女", " 男", " 男", " 女") sex <- factor(x) sex 返回: at
R语言-修改(替换)因子变量的元素操作

因子变量的核心是水平,通过指定水平来修改. x<-c(1,1,1,1,2,2,2,3,3,3,3,4) xx<-factor(x);xx levels(xx) #得到水平为3的位置 level_3<-which(levels(xx)==3) #重新赋值 levels(xx)[level_3]<-03 xx #由于新值是03,0开头,所以把03当成3处理 levels(xx)[level_3]<-c("03") xx #字符串会自动转换成因子 levels(

R语言:实现因子与字符串的互转

示例数据如下：

概要如下：

再次查看概要，如下：

结论

相关推荐

随机推荐