R语言数据表匹配和拼接 merge函数的使用

2025-03-01 13:48:34

R中的merge函数类似于Excel中的Vlookup，可以实现对两个数据表进行匹配和拼接的功能。

merge(x, y, by = intersect(names(x), names(y)), by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all, sort = TRUE, suffixes = c(".x",".y"), incomparables = NULL, ...)

x,y:用于合并的两个数据框

by,by.x,by.y:用于连接两个数据集的列，intersect(a,b)值向量a,b的交集，names(x)指提取数据集x的列名 by = intersect(names(x), names(y)) 是获取数据集x，y的列名后，提取其公共列名，作为两个数据集的连接列，当有多个公共列时，需用下标指出公共列，如names(x)[1]，指定x数据集的第1列作为公共列也可以直接写为 by = ‘公共列名' ，前提是两个数据集中都有该列名，并且大小写完全一致，R语言区分大小写

all,all.x,all.y:指定x和y的行是否应该全在输出文件.

sort:by指定的列是否要排序.

suffixes:指定除by外相同列名的后缀.

incomparables:指定by中哪些单元不进行合并.

merge函数有4种匹配拼接模式，分别为inner，left，right和outer模式。其中inner为默认的匹配模式。all=T代表全连接，all.x=T代表左联结；all.y=T代表右连接

inner 模式匹配，只显示两个数据集公共列中均有的行

# 有多个公共列时，需指出使用哪一列作为连接列merge(x,y,by=intersect(names(x)[1],names(y)[1]))

# 当两个数据集连接列名称同时，直接用by.x，by.y 指定连接列merge(x,y,by.x ='name',by.y ='name')

# 当两个数据集均有连接列时，直接指定连接列的名称merge(x,y,by='name')

outer 模式，将两张表的数据汇总，表中原来没有的数据置为空

merge(x, y, all=TRUE, sort=TRUE)

# all = TRUE 表示选取x, y 数据集的所有行，sort = TRUE，表示按 by 列进行排序，默认升序

left 匹配模式

merge(x ,y,all.x=TRUE,sort=TRUE)

# 多个公共列末指定连接列 ,左连接，设置 all.x = TRUE，结果只显示数据x的列及x在y数据集中没有的列

merge(x, y, by = 'name',all.x = TRUE, sort = TRUE) # 多个公共列指定连接列指，左连接，设置 all.x = TRUE，结果只显示x所有names(x)[1]值

right 匹配模式

merge(x ,y ,by='name',all.y=TRUE,sort=TRUE)

# 多个公共列指定连接列# 左连接，设置all.y =TRUE，结果只显示y所有names(y) [1] 值的记录

补充：R语言subset和merge函数的使用

1、merge函数对数据框的操作

从两个数据框中选择出条件相等的行组合成一个新的数据框

df1=data.frame(name=c("aa","bb","cc"),age=c(20,29,30),sex=c("f","m","f"))
df2=data.frame(name=c("dd","bb","cc"),age=c(40,35,36),sex=c("f","m","f"))
mergedf=merge(df1,df2,by="name")

2、subset函数

从某一个数据框中选择出符合某条件的数据或是相关的列

（1）单条件查询

> selectresult=subset(df1,name=="aa")
> selectresult
 name age sex
1  aa 20  f
> df1
 name age sex
1  aa 20  f
2  bb 29  m
3  cc 30  f

（2）指定显示列

> selectresult=subset(df1,name=="aa",select=c(age,sex))
> selectresult
 age sex
1 20  f

（3）多条件查询

> selectresult=subset(df1,name=="aa" & sex=="f",select=c(age,sex))
> selectresult
 age sex
1 20  f
> df1
 name age sex
1  aa 20  f
2  bb 29  m
3  cc 30  f

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

R语言数据类型和对象深入讲解

以上数据类型均为原子向量. 单引号和双引号不做区分. R语言中TRUE和FALSE 可以简化为T和F 多元素向量的生成方式方式 1:使用c()函数 ,这个是最常见的 c(combine) 如果基本类型混合的话,会强制类型转换方式2: 使用seq()函数 (创建等差数列) 方式3:创建等差序列事先知道向量的类型和长度,可以产生随机数列有放回抽样 (这个可以用np.random.choice()实现) 取向量的元素,并对其操作 (下表从1开始) 根据变量的不同,R语言数据对象可以分为到此
R语言求一行(列表、list)数据的平均数操作

R语言求一个列表的平均数可以使用mean() : mean英文意思有平均数的含义 x=c(1,3,5,7,9) max(x) #这样即可求得平均数为 : 5 假如读取过一个csv文件之后,要求其中一行数据中指定某个区间内的平均数可以使用rowMeans() data = read.csv("input.csv",sep=",",header=T) rowMeans(data[10:17]) 补充:R语言-数据框分组求平均值 [技术关键] 1.从excel把数据读到数
R语言实现将1对多数据与1对1数据互换

想了好长时间名字,不知道要解决的问题的名字叫什么,直接上问题demo 问题demo 现在有用户消费金额的数据: 用户日期金额小明 2016-01 300 小明 2016-02 500 小明 2016-03 400 小刘 2016-01 700 小刘 2016-02 800 小刘 2016-03 600 我将以上数据格式为一对多数据(想不出好名字,敬请大家拍砖) 还有一种数据形式如下,我将如下格式数据称为1对1数据用户 2016-01 2016-02 2016-03 小明 300 500
R语言数据类型知识点总结

通常,在使用任何编程语言进行编程时,您需要使用各种变量来存储各种信息. 变量只是保留值的存储位置. 这意味着,当你创建一个变量,你必须在内存中保留一些空间来存储它们. 您可能想存储各种数据类型的信息,如字符,宽字符,整数,浮点,双浮点,布尔等.基于变量的数据类型,操作系统分配内存并决定什么可以存储在保留内存中. 与其他编程语言(如 C 中的 C 和 java)相反,变量不会声明为某种数据类型. 变量分配有 R 对象,R 对象的数据类型变为变量的数据类型.尽管有很多类型的 R 对象,但经常使用的是
R语言实现两表连接且输出不重复数据

在做项目中遇到了如此问题,其中整理的结果表中没有会员ID信息,只有会员电话号码信息,且每一行为唯一一个会员. 另外一张member表中包含会员ID以及会员电话信息,但是这张表有重复的会员信息,也就是说一个会员在member表中多次出现,memeber表比整理的表要大很多. 说明: 1.在项目过程中,数据量较大,用到的是data.table包,需要用到SQL中的语句减少代码量,因此需要sqldf包. 2.以下例子中xx中的a1在yy中都有对应的值. 3.yy中的a1与b是一一对应的关系,不存在同一
R语言实现将数据框中的字符类型数字转换为数值

场景1 我现在有一个数据框datexpr,里面的数字都是以字符型表示的,像这样 > datexpr[1,1] [1] " 1.143773961" 现在我想把这个数据框中的字符型数字全部转为数值型数字使用下面语句即可 datexpr2=as.data.frame(lapply(datexpr,as.numeric)) 现在再次查看,就是数值型啦,整个数据框中的内容也都是数值型的啦 > datexpr2[1,1] [1] 1.143774 场景2 我现在有一个数据框date
R语言数据集行列互换的技巧分享

现在给大家介绍的数据处理技巧是长转宽,也就相当于Excel中的转置,不过用R语言实现的长转宽还有数据合并的功能,自然比Excel强大多了. 这里给大家介绍4个函数,其中melt().dcast()来自reshape2包,gather().spread()来自tidyr包一.宽转长--melt().gather() mydata<-data.frame( name=c("store1","store2","store3","sto
R语言数据表匹配和拼接 merge函数的使用

R中的merge函数类似于Excel中的Vlookup,可以实现对两个数据表进行匹配和拼接的功能. merge(x, y, by = intersect(names(x), names(y)), by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all, sort = TRUE, suffixes = c(".x",".y"), incomparables = NULL, ...) x,y:用于合并的两个
R语言数据框合并(merge)的几种方式小结

merge data frames (inner, outer, left, right) 数据 > df1 = data.frame(CustomerId = c(1:6), Product = c(rep("Toaster", 3), rep("Radio", 3))) > df1 > CustomerId Product 1 1 Toaster 2 2 Toaster 3 3 Toaster 4 4 Radio 5 5 Radio 6 6 R
R语言数据重塑知识点总结

R 语言中的数据重塑是关于改变数据被组织成行和列的方式. 大多数时间 R 语言中的数据处理是通过将输入数据作为数据帧来完成的. 很容易从数据帧的行和列中提取数据,但是在某些情况下,我们需要的数据帧格式与我们接收数据帧的格式不同. R 语言具有许多功能,在数据帧中拆分,合并和将行更改为列,反之亦然. 于数据帧中加入列和行我们可以使用 cbind() 函数连接多个向量来创建数据帧. 此外,我们可以使用 rbind() 函数合并两个数据帧. # Create vector objects. city
R语言数据可视化学习之图形参数修改详解

1.图形参数的修改par()函数我们可以通过使用par()函数来修改图形的参数,其调用格式为par(optionname=name, optionname=name,-).当par()不加参数时,返回当前图形参数设置的列表:par(no.readonly=T)将生成一个可以修改当前参数设置的列表.注意以这种方式修改参数设置,除非参数再次被修改,否则一直执行此参数设置. 例如现在想画出mtcars数据集中mpg的折线图,并用虚线代替实线,并将两幅图排列在同一幅图里,代码及图形如下: > opar
详解R语言数据合并一行代码搞定

数据的合并需要的函数 cbind(),rbind(),bind_rows(),merge() 准备数据我们先构造一组数据,以便下面的演示 > data1<-data.frame( + namea=c("海波","立波","秀波"), + value=c("一波","接","一波") + ) > data1 namea value 1 海波一波 2 立波接 3 秀
R语言数据框中的负索引介绍

以R语言自带的mtcars数据框为例: 这是原始的mtcars数据: 这里只列出了前面几行数据. 然后负索引mtcars[,-2:-3],得到的结果删除了第二列和第三列数据所以R语言数据框中的负索引是指删除数据框中对应的列(或者行) ps:这和Python里面的规则好像不太一样,Python里的负索引好像是指倒数第几列(或者第几行),这里这两个软件区别还挺大的~~写个笔记提醒一下自己~ 补充:R语言中的负整数索引看代码吧~ > x<-matrix(c(1,2,3,4,5,6,7,8,9)
R语言数据可视化ggplot绘制置信区间与分组绘图技巧

目录 1. 单组情况 1)构造数据集 2)绘制置信区间 2. 多组情况方法1 1)构造数据集 2)绘制置信区间方法2 1)构造数据集 2)绘制置信区间 3)美化 1. 单组情况 1)构造数据集 x <- 1:10 y <- x^2 ci_l <- x^2 - 0.5 * x ci_r <- x^2 + 0.5 * x dat_plot <- data.frame(x, y, ci_l, ci_r) 数据集长下面这样: x y ci_l ci_r 1 1 1 0.5 1.5
R语言数据可视化分析天猫双十一销售额增长率

目录最近和小伙伴一起探索了一下双十一后闹得沸沸扬扬的一篇文章:"淘宝2009-2018年历年双十一销售额数据造假".原文作者使用初中阶段学过的抛物线,就将每年的销售额增长趋势拟合得非常完美. (如果大家想学习如何画出上述的图像,可参见前面一篇博客:用 ggplot 重绘天猫双十一销售额图) 同时在知乎上,这个问题也成功上了当时的热搜榜,各路大神云集,也发表了很多很有意思的观点: 如何看待有人质疑淘宝双十一数据造假,并在4月份成功预测今年销售额为2680亿? 看了很多大神的文章后,自己
R语言数据可视化ggplot添加左右y轴绘制天猫双十一销售图

目录构造数据集绘制散点修改两坐标轴信息本文是以天猫双十一销量与增长率为例,原始的数据可以参考上一篇文章:用 ggplot 重绘天猫双十一销售额图,这里不再作过多的介绍. 同时整个的天猫双十一的销售额数据分析可以关注:天猫双十一"数据造假"是真的吗? 老规矩,先上最终成果(两张图只是颜色的差别): 上图左边 y 轴表示增长率的刻度,右边 y 轴表示销售额的数据,我们将两者在同一张图上进行展现.其实将两个统计图在同一个坐标系中呈现不算是这个绘图的难点,其真正的难点在与刻度的变换以及
R语言数据建模流程分析

目录 Intro 项目背景前期准备数据描述数据清洗预分析及预处理数值型数据类别型数据特征 Boruta算法建模模型对比 Intro 近期在整理数据分析流程,找到了之前写的一篇代码,分享给大家.这是我上学时候做的一个项目,当时由于经验不足产生了一些问题,这些问题会在之后一点一点给大家讨论,避免各位踩坑.本篇分享会带一些讲解,可能有些地方不够清楚,欢迎留言讨论. 本次除了分享之外也是对自己之前项目的一个复盘.还是使用R语言(毕竟是我钟爱的语言).Python的如果有需求之后会放别的