R语言之左连接的三种实现操作

2026-03-19 01:46:32

数据处理中经常遇到表连接问题，本次介绍R语言中三种左连接方法，这三种是等价的，不过会有时间快慢问题，斟酌使用。

法一：

> data0 <- merge(a,c,all.x=TRUE,by='CELLPHONE')

法二：

> data1 <- sqldf('select a.*,b.* from a left join c on a.CELLPHONE=c.CELLPHONE')

法三：

> data2 <- c[a,on='CELLPHONE']

注意：第三种方法的顺序不能写反了。

补充：R语言中的inner_join, full_join, left_join, right_join

在R for Data Science中，作者用了非常直观的例子解释了上面的四个概念。说明如下：

我们的数据集是这样的：

x <- tribble(
 ~key, ~val_x,
 1, "x1",
 2, "x2",
 3, "x3"
)
y <- tribble(
 ~key, ~val_y,
 1, "y1",
 2, "y2",
 4, "y3"
)

可以看出，x与y的key都有1，2，但是x的key里面有3，y的key里面有4.

下面我们来看这四个概念：

1. inner_join

x %>%
 inner_join(y, by = "key")

其结果是

key val_x val_y
 <dbl> <chr> <chr>
   1 x1  y1
   2 x2  y2

可以看出，此时基于key的连接只保留了共同的key值1与2对应的数据；

2. full_join

x %>%
 full_join(y, by = "key")

其结果是

key val_x val_y
 <dbl> <chr> <chr>
 1 x1  y1
 2 x2  y2
 3 x3  NA
 4 NA  y3

可以看出，此时基于key的连接保留了所有key值对应的数据，当相应的值不存在的时候，用NA代替；

3. left_join

x %>%
 left_join(y, by = "key")

此时的结果为

<dbl> <chr> <chr>
  1 x1  y1
  2 x2  y2
  3 x3  NA

可以看出, 此时基于key的连接只保留了x对应的key值的数据，当相应的值不存在的时候，用NA代替；

4. right_join

x %>%
 right_join(y, by = "key")

此时的结果为

key val_x val_y
 <dbl> <chr> <chr>
1 x1  y1
2 x2  y2
4 NA  y3

可以看出，此时基于key的连接只保留了y对应的key值的数据，当相应的值不存在的时候，用NA代替。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

R语言实现将factor转换成numeric方法

方法1: such as : x <- factor(c(3,4,5,1)) as.numeric(x) [1]2 3 4 1 最好是这样: as.numeric(levels(x)[x]) [1] 3 4 5 1 方法2: as.numeric(as.character()) 该方法最好! 方法3: read.table时候就读成数值型,R读的时候默认"NA"是missing,如果你的数据不是用NA来表示missing,那么这一列就读成string或者factor了补充:R语
R语言 Factor类型的变量使用说明

factor类型的创建 1. factor( ) > credit_rating <- c("BB", "AAA", "AA", "CCC", "AA", "AAA", "B", "BB") #生成名为credit_rating的字符向量 > credit_factor <- factor(credit_rating) #
R语言数据表匹配和拼接 merge函数的使用

R中的merge函数类似于Excel中的Vlookup,可以实现对两个数据表进行匹配和拼接的功能. merge(x, y, by = intersect(names(x), names(y)), by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all, sort = TRUE, suffixes = c(".x",".y"), incomparables = NULL, ...) x,y:用于合并的两个
R语言实现将1对多数据与1对1数据互换

想了好长时间名字,不知道要解决的问题的名字叫什么,直接上问题demo 问题demo 现在有用户消费金额的数据: 用户日期金额小明 2016-01 300 小明 2016-02 500 小明 2016-03 400 小刘 2016-01 700 小刘 2016-02 800 小刘 2016-03 600 我将以上数据格式为一对多数据(想不出好名字,敬请大家拍砖) 还有一种数据形式如下,我将如下格式数据称为1对1数据用户 2016-01 2016-02 2016-03 小明 300 500
R语言实现data.frame 分组计数、求和等

df为1个data.frame对象,有stratum和psu两列,这里统计stratum列计数方法1: cnt = table(df$stratum) 方法2: cnt = tapply(df$psu, INDEX=df$stratum, FUN=length) 在方法2的基础上,只要改变FUN函数就可以实现分组求和.求均值等功能,如下分组求均值: tapply(df$psu, INDEX=df$stratum, FUN=mean) #(等价于python中的df.groupby('stra
R语言实现将数据框中的字符类型数字转换为数值

场景1 我现在有一个数据框datexpr,里面的数字都是以字符型表示的,像这样 > datexpr[1,1] [1] " 1.143773961" 现在我想把这个数据框中的字符型数字全部转为数值型数字使用下面语句即可 datexpr2=as.data.frame(lapply(datexpr,as.numeric)) 现在再次查看,就是数值型啦,整个数据框中的内容也都是数值型的啦 > datexpr2[1,1] [1] 1.143774 场景2 我现在有一个数据框date
R语言数据集行列互换的技巧分享

现在给大家介绍的数据处理技巧是长转宽,也就相当于Excel中的转置,不过用R语言实现的长转宽还有数据合并的功能,自然比Excel强大多了. 这里给大家介绍4个函数,其中melt().dcast()来自reshape2包,gather().spread()来自tidyr包一.宽转长--melt().gather() mydata<-data.frame( name=c("store1","store2","store3","sto
R语言之左连接的三种实现操作

数据处理中经常遇到表连接问题,本次介绍R语言中三种左连接方法,这三种是等价的,不过会有时间快慢问题,斟酌使用. 法一: > data0 <- merge(a,c,all.x=TRUE,by='CELLPHONE') 法二: > data1 <- sqldf('select a.*,b.* from a left join c on a.CELLPHONE=c.CELLPHONE') 法三: > data2 <- c[a,on='CELLPHONE'] 注意:第三种方法的
R语言将变量分组的3种方法实例(含cut函数说明）

目录前言方法一:直接对分组变量进行赋值方法二:使用within函数对变量进行分组方法三:采用cut函数总结前言在数据处理的过程中,我们有时候需要将连续的数值数据转换为类别数据,比如将收入分成高.中和低三组,将学生成绩分为优.良.中.及格和不及格五组. 本来将基于R语言,采用三种方法来实现:第一种是对变量直接进行重新赋值,第二种是使用within函数对语句进行组织,第三种是cut函数. 首先我们定义一个数据框,这个数据框包括学生姓名和数学成绩两个变量. #定义数据框 mathScor
C语言中函数指针的三种使用方法总结

C语言中函数指针的三种使用方法总结在这里分享一下自己的心得,希望和大家一起分享技术,如果有什么不足,还请大家指正.写出这篇目的,就是希望大家一起成长,我也相信技术之间没有高低,只有互补,只有分享,才能使彼此更加成长. 定义方式:int (*p)(int x, int y); 实现代码: #include <stdio.h> int sum(int x, int y){ return x + y; } int reduce(int x, int y){ return x - y; } int
C语言求阶乘之和的三种实现方法(先阶乘再累加)

目录题目: 方法一:使用一层for循环实现代码简单快捷容易理解方法二:使用两层for循环嵌套方法三:函数递归实现总结题目: 此处题目是以1-20的阶乘之和举例方法一:使用一层for循环实现代码简单快捷容易理解代码示例如下: #include<stdio.h> int main() { double a = 1, sum = 0;//因为最后值可能会超出int所能接收的范围故用double int n, i; scanf("%d", &n);//注
Go语言拼接URL路径的三种方法

目录 JoinPath ResolveReference path.Join 参考 Go语言拼接URL路径有多种方法建议用ResolveReference. JoinPath JoinPath会把多个多个路径合并成一个路径,并且处理../和./,多个//合并成单个/. package main import ( "fmt" "net/url" ) func main() { u1 := "http://example.com/dir
C语言移除元素的三种思路讲解

目录问题描述解题方案思路一思路二思路三(最优解) 问题描述原题链接:https://leetcode.cn/problems/remove-element/ 解题方案思路一思路一: 首先通过简单分析,很明显这是一道顺序表相关问题.首先能够想到的是暴力求解,即思路一:找到所有的val,每次挪动val后的数据覆盖删除val. 代码展示: int find(int*nums,int numsSize,int val) { int i=0; for(i=0;i<numsSize;i++)
Android 三种延迟操作的实现方法

Android 三种延迟操作的实现方法实现方法: 一.线程 new Thread(new Runnable(){ public void run(){ Thread.sleep(XXXX); handler.sendMessage();----告诉主线程执行任务 } }).start 二.延时器 TimerTask task = new TimerTask(){ public void run(){ //execute the task } }; Timer timer = new Timer
R语言导入导出数据的几种方法汇总

导出: 对于某一数据集导出文件的方法导出例子:write.csv(data_1,file = "d:/1111111111.csv") 其中data_1是你的数据集,file是你的存储路径和要存储的名字导入: 1 使用键盘输入数据 (1) 创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致: (2)针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中. 在下例中,你将创建一个名为mydata的数据框,它含有三个变量:age(数值型).
python实现字符串连接的三种方法及其效率、适用场景详解

python字符串连接的方法,一般有以下三种: 方法1:直接通过加号(+)操作符连接 website = 'python' + 'tab' + '.com' 方法2:join方法 listStr = ['python', 'tab', '.com'] website = ''.join(listStr) 方法3:替换 website = '%s%s%s' % ('python', 'tab', '.com') 下面再来说一下三种方法的不同方法1,使用简单直接,但是网上不少人说这种方法效率低
R语言变量重编码、重命名的操作

1.变量重编码重编码涉及根据同一个变量和/或其他变量的现有值创建新值的过程,如将符合某个条件的值重新赋值等,这里主要介绍两种常见的方法: #第一种方法 per <- data.frame(name = c("张三","李四","王五","赵六"), age = c(23,45,34,1000)) per per$age[per$age == 1000] <- NA #设置缺失值 per$age1[per$age