R语言实现两表连接且输出不重复数据

2025-10-29 07:21:23

在做项目中遇到了如此问题，其中整理的结果表中没有会员ID信息，只有会员电话号码信息，且每一行为唯一一个会员。

另外一张member表中包含会员ID以及会员电话信息，但是这张表有重复的会员信息，也就是说一个会员在member表中多次出现，memeber表比整理的表要大很多。

说明：

1.在项目过程中，数据量较大，用到的是data.table包，需要用到SQL中的语句减少代码量，因此需要sqldf包。

2.以下例子中xx中的a1在yy中都有对应的值。

3.yy中的a1与b是一一对应的关系，不存在同一个a1值对应不同的b值。

4.此程序的目的是，用yy表与xx表匹配，也就是最终的结果应该是在xx的基础上增加b这一列的信息，数据集xx的行数不变。

如下所示：

<span style="font-size:14px;">> library(data.table)
> library(sqldf)
> xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span>
<span style="font-family:SimSun;font-size:14px;">> xx
  a1 c  d
1: 1 8 adf
2: 2 5  af
3: 3 8 sdf
4: 4 6 utr
5: 5 23  af
6: 6 7 ruti</span>

<span style="font-size:14px;">yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g',
                            'f','h','i','b','b','c','f'))</span>

<span style="font-size:14px;">> yy
  a1 b
 1: 2 b
 2: 3 c
 3: 1 a
 4: 4 d
 5: 5 e
 6: 5 e
 7: 7 g
 8: 6 f
 9: 8 h
10: 9 i
11: 2 b
12: 2 b
13: 3 c
14: 6 f
</span>

<span style="font-size:14px;">#按照a1连接所有信息包括进去
> dataxy<- merge(xx, yy, by = "a1", all.x = TRUE)
> dataxy
  a1 c  d b
 1: 1 8 adf a
 2: 2 5  af b
 3: 2 5  af b
 4: 2 5  af b
 5: 3 8 sdf c
 6: 3 8 sdf c
 7: 4 6 utr d
 8: 5 23  af e
 9: 5 23  af e
10: 6 7 ruti f
11: 6 7 ruti f</span>

<span style="font-size:14px;">#删除重复的行*/
> sqldf("select DISTINCT a1,b,c,d from left1")
 a1 b c  d
1 1 a 8 adf
2 2 b 5  af
3 3 c 8 sdf
4 4 d 6 utr
5 5 e 23  af
6 6 f 7 ruti</span>

补充：R语言筛选出不重复的行的几种方法

在做项目的过程中遇到筛选不重复的会员信息进行匹配，本次介绍五种筛选不重复行的数据：

五种方法如下：

>>> library(dplyr)
>>> library(sqldf)

方法一：

>>> data1 <- data7_0 %>%
       group_by(CELLPHONE,MEMBERID) %>%
       filter(row_number() == 1) %>%
       ungroup()

方法二：

>>> data2 <- data7_0 %>%
       distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)

方法三：

>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")

方法四：

>>> data4 <- base::unique(data7_0)

方法五：

>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

R语言数据类型和对象深入讲解

以上数据类型均为原子向量. 单引号和双引号不做区分. R语言中TRUE和FALSE 可以简化为T和F 多元素向量的生成方式方式 1:使用c()函数 ,这个是最常见的 c(combine) 如果基本类型混合的话,会强制类型转换方式2: 使用seq()函数 (创建等差数列) 方式3:创建等差序列事先知道向量的类型和长度,可以产生随机数列有放回抽样 (这个可以用np.random.choice()实现) 取向量的元素,并对其操作 (下表从1开始) 根据变量的不同,R语言数据对象可以分为到此
R语言求一行(列表、list)数据的平均数操作

R语言求一个列表的平均数可以使用mean() : mean英文意思有平均数的含义 x=c(1,3,5,7,9) max(x) #这样即可求得平均数为 : 5 假如读取过一个csv文件之后,要求其中一行数据中指定某个区间内的平均数可以使用rowMeans() data = read.csv("input.csv",sep=",",header=T) rowMeans(data[10:17]) 补充:R语言-数据框分组求平均值 [技术关键] 1.从excel把数据读到数
R语言数据类型知识点总结

通常,在使用任何编程语言进行编程时,您需要使用各种变量来存储各种信息. 变量只是保留值的存储位置. 这意味着,当你创建一个变量,你必须在内存中保留一些空间来存储它们. 您可能想存储各种数据类型的信息,如字符,宽字符,整数,浮点,双浮点,布尔等.基于变量的数据类型,操作系统分配内存并决定什么可以存储在保留内存中. 与其他编程语言(如 C 中的 C 和 java)相反,变量不会声明为某种数据类型. 变量分配有 R 对象,R 对象的数据类型变为变量的数据类型.尽管有很多类型的 R 对象,但经常使用的是
R语言数据集行列互换的技巧分享

现在给大家介绍的数据处理技巧是长转宽,也就相当于Excel中的转置,不过用R语言实现的长转宽还有数据合并的功能,自然比Excel强大多了. 这里给大家介绍4个函数,其中melt().dcast()来自reshape2包,gather().spread()来自tidyr包一.宽转长--melt().gather() mydata<-data.frame( name=c("store1","store2","store3","sto
R语言数据表匹配和拼接 merge函数的使用

R中的merge函数类似于Excel中的Vlookup,可以实现对两个数据表进行匹配和拼接的功能. merge(x, y, by = intersect(names(x), names(y)), by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all, sort = TRUE, suffixes = c(".x",".y"), incomparables = NULL, ...) x,y:用于合并的两个
R语言实现将数据框中的字符类型数字转换为数值

场景1 我现在有一个数据框datexpr,里面的数字都是以字符型表示的,像这样 > datexpr[1,1] [1] " 1.143773961" 现在我想把这个数据框中的字符型数字全部转为数值型数字使用下面语句即可 datexpr2=as.data.frame(lapply(datexpr,as.numeric)) 现在再次查看,就是数值型啦,整个数据框中的内容也都是数值型的啦 > datexpr2[1,1] [1] 1.143774 场景2 我现在有一个数据框date
R语言实现将1对多数据与1对1数据互换

想了好长时间名字,不知道要解决的问题的名字叫什么,直接上问题demo 问题demo 现在有用户消费金额的数据: 用户日期金额小明 2016-01 300 小明 2016-02 500 小明 2016-03 400 小刘 2016-01 700 小刘 2016-02 800 小刘 2016-03 600 我将以上数据格式为一对多数据(想不出好名字,敬请大家拍砖) 还有一种数据形式如下,我将如下格式数据称为1对1数据用户 2016-01 2016-02 2016-03 小明 300 500
R语言实现两表连接且输出不重复数据

在做项目中遇到了如此问题,其中整理的结果表中没有会员ID信息,只有会员电话号码信息,且每一行为唯一一个会员. 另外一张member表中包含会员ID以及会员电话信息,但是这张表有重复的会员信息,也就是说一个会员在member表中多次出现,memeber表比整理的表要大很多. 说明: 1.在项目过程中,数据量较大,用到的是data.table包,需要用到SQL中的语句减少代码量,因此需要sqldf包. 2.以下例子中xx中的a1在yy中都有对应的值. 3.yy中的a1与b是一一对应的关系,不存在同一
R语言常用两种并行方法之parallel详解

目录并行计算在模拟时什么地方可以用到并行? 怎么在R中看我们可以使用并行? parallel(简单) 由于最近在进行一些论文的模拟,所以尝试了两种并行的方法:parallel与snowfall,这两种方法各有优缺,但还是推荐snowfall,整体较为稳定,不容易因为内存不足或者并行线程过多等原因而报错. 并行计算并行计算: 简单来讲,就是同时使用多个计算资源来解决一个计算问题,是提高计算机系统计算速度和处理能力的一种有效手段.(参考:并行计算简介) 一个问题被分解成为一系列可以并发执行的离
R语言常用两种并行方法之snowfall详解

上一篇博客(R中两种常用并行方法之parallel)中已经介绍了R中常见的一种并行包:parallel,其有着简单便捷等优势,其实缺点也是非常明显,就是很不稳定.很多时候我们将大量的计算任务挂到服务器上进行运行时,更看重的是其稳定性. 这时就要介绍R中的另一个并行利器--snowfall,这也是在平时做模拟时用的最多的一种方法. 针对上篇中的简单例子首先是一个最简单的并行的例子,这个例子不需要载入任何依赖库.函数.对象等.相对也比较简单: library(snowfall) # 载入snowf
Yii+MYSQL锁表防止并发情况下重复数据的方法

本文实例讲述了Yii+MYSQL锁表防止并发情况下重复数据的方法.分享给大家供大家参考,具体如下: lock table 读锁定如果一个线程获得在一个表上的read锁,那么该线程和所有其他线程只能从表中读数据,不能进行任何写操作. lock tables user read;//读锁定表 unlock tables;//解锁 lock tables user read local;//本地读锁定表,其他线程的insert未被阻塞,update操作被阻塞 lock table 写锁定如果一个线
R语言-生成频数表和列联表crosstable函数介绍

列联表crosstable 列联表不仅可以用来做简单的描述性统计,还可以在机器学习中用来比较识别正确率,FPR,TPR等等数据,以便我们比较不同的ML模型 or 调参. 2x2列联表一般长下面这样: Total Observations in Table: 143 | test_cancer$diagnosis lda.class | 0 | 1 | Row Total | -------------|-----------|-----------|-----------| 0 | 82 | 1
两个List集合取相同重复数据的方法

以下是两个list取重复的代码: public static void main(String[] args) { List<Integer> list1 = new ArrayList<Integer>(); for (int i = 0; i < 5; i++) { list1.add(i); } List<Integer> list2 = new ArrayList<Integer>(); for (int i = 2; i < 8; i+
详解R语言中的表达式、数学公式、特殊符号

在R语言的绘图函数中,如果文本参数是合法的R语言表达式,那么这个表达式就被用Tex类似的规则进行文本格式化. y <- function(x) (exp(-(x^2)/2))/sqrt(2*pi) plot(y, -5, 5, main = expression(f(x) == frac(1,sqrt(2*pi))*e^(-frac(x^2,2))), lwd = 3, col = "blue") library(ggplot2) x <- seq(0, 2*pi, b
R语言常见面试题整理

尊敬的读者,这些R语言面试题是专门设计的,以便您应对在R语言相关面试中可能会被问到的问题. 根据我的经验,良好的面试官几乎不打算在你的面试中问任何特定的问题,通常都是以如下的问题为开端进一步展开后继的问题. 什么是R语言编程? R语言是一种用于统计分析和为此目的创建图形的编程语言.不是数据类型,它具有用于计算的数据对象.它用于数据挖掘,回归分析,概率估计等领域,使用其中可用的许多软件包. R语言中的不同数据对象是什么? 它们是R语言中的6个数据对象.它们是向量,列表,数组,矩阵,数据框和表. 什
SqlServer 表连接教程(问题解析)

1.2 本篇文章内容概要 1.3 本篇文章内容概括在SQL语句中,关于表连接,若按照表的数量来划分,可以划分为单表连接.两表连接和两表以上连接,在本篇文章中,主要讲解两表连接,其他多表连接原理一样. 关于表连接有很多种类,本文主要讲解交叉连接,内连接,外连接(左外部连接,右外部连接,全连接),自连接. 1.4 本章测试样表和Sql 业务场景:有两张表,分为为顾客表Customers和顾客订单表Orders,SQL语句分别如下: 创建Customes并初始化 --CREATE TABLE Cus
R语言对二进制文件操作详解

二进制文件是包含仅以位和字节(0和1)的形式存储的信息的文件.它们不是人类可读的,因为它中的字节转换为包含许多其他不可打印字符的字符和符号.尝试使用任何文本编辑器读取二进制文件将显示如Ø和ð的字符. 二进制文件必须由特定程序读取才能使用.例如,Microsoft Word程序的二进制文件只能通过Word程序读取到人类可读的形式.这表示,除了人类可读的文本之外,还有更多的信息,例如字符和页码等的格式化,它们也与字母数字字符一起存储.最后一个二进制文件是一个连续的字节序列.我们在文本文件中看到的换行

R语言 实现两表连接且输出不重复数据

说明：