R语言之左连接的三种实现操作
数据处理中经常遇到表连接问题,本次介绍R语言中三种左连接方法,这三种是等价的,不过会有时间快慢问题,斟酌使用。
法一:
> data0 <- merge(a,c,all.x=TRUE,by='CELLPHONE')
法二:
> data1 <- sqldf('select a.*,b.* from a left join c on a.CELLPHONE=c.CELLPHONE')
法三:
> data2 <- c[a,on='CELLPHONE']
注意:第三种方法的顺序不能写反了。
补充:R语言中的inner_join, full_join, left_join, right_join
在R for Data Science中,作者用了非常直观的例子解释了上面的四个概念。说明如下:
我们的数据集是这样的:
x <- tribble( ~key, ~val_x, 1, "x1", 2, "x2", 3, "x3" ) y <- tribble( ~key, ~val_y, 1, "y1", 2, "y2", 4, "y3" )
可以看出,x与y的key都有1,2,但是x的key里面有3,y的key里面有4.
下面我们来看这四个概念:
1. inner_join
x %>% inner_join(y, by = "key")
其结果是
key val_x val_y <dbl> <chr> <chr> 1 x1 y1 2 x2 y2
可以看出,此时基于key的连接只保留了共同的key值1与2对应的数据;
2. full_join
x %>% full_join(y, by = "key")
其结果是
key val_x val_y <dbl> <chr> <chr> 1 x1 y1 2 x2 y2 3 x3 NA 4 NA y3
可以看出,此时基于key的连接保留了所有key值对应的数据,当相应的值不存在的时候,用NA代替;
3. left_join
x %>% left_join(y, by = "key")
此时的结果为
<dbl> <chr> <chr> 1 x1 y1 2 x2 y2 3 x3 NA
可以看出, 此时基于key的连接只保留了x对应的key值的数据,当相应的值不存在的时候,用NA代替;
4. right_join
x %>% right_join(y, by = "key")
此时的结果为
key val_x val_y <dbl> <chr> <chr> 1 x1 y1 2 x2 y2 4 NA y3
可以看出,此时基于key的连接只保留了y对应的key值的数据,当相应的值不存在的时候,用NA代替。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。
相关推荐
-
R语言 实现data.frame 分组计数、求和等
df为1个data.frame对象,有stratum和psu两列,这里统计stratum列计数 方法1: cnt = table(df$stratum) 方法2: cnt = tapply(df$psu, INDEX=df$stratum, FUN=length) 在方法2的基础上,只要改变FUN函数就可以实现分组求和.求均值等功能,如下 分组求均值: tapply(df$psu, INDEX=df$stratum, FUN=mean) #(等价于python中的df.groupby('stra
-
R语言 数据集行列互换的技巧分享
现在给大家介绍的数据处理技巧是长转宽,也就相当于Excel中的转置,不过用R语言实现的长转宽还有数据合并的功能,自然比Excel强大多了. 这里给大家介绍4个函数,其中melt().dcast()来自reshape2包,gather().spread()来自tidyr包 一.宽转长--melt().gather() mydata<-data.frame( name=c("store1","store2","store3","sto
-
R语言 实现将数据框中的字符类型数字转换为数值
场景1 我现在有一个数据框datexpr,里面的数字都是以字符型表示的,像这样 > datexpr[1,1] [1] " 1.143773961" 现在我想把这个数据框中的字符型数字全部转为数值型数字 使用下面语句即可 datexpr2=as.data.frame(lapply(datexpr,as.numeric)) 现在再次查看,就是数值型啦,整个数据框中的内容也都是数值型的啦 > datexpr2[1,1] [1] 1.143774 场景2 我现在有一个数据框date
-
R语言 数据表匹配和拼接 merge函数的使用
R中的merge函数类似于Excel中的Vlookup,可以实现对两个数据表进行匹配和拼接的功能. merge(x, y, by = intersect(names(x), names(y)), by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all, sort = TRUE, suffixes = c(".x",".y"), incomparables = NULL, ...) x,y:用于合并的两个
-
R语言 实现将factor转换成numeric方法
方法1: such as : x <- factor(c(3,4,5,1)) as.numeric(x) [1]2 3 4 1 最好是这样: as.numeric(levels(x)[x]) [1] 3 4 5 1 方法2: as.numeric(as.character()) 该方法最好! 方法3: read.table时候就读成数值型,R读的时候默认"NA"是missing,如果你的数据不是用NA来表示missing,那么这一列就读成string或者factor了 补充:R语
-
R语言 Factor类型的变量使用说明
factor类型的创建 1. factor( ) > credit_rating <- c("BB", "AAA", "AA", "CCC", "AA", "AAA", "B", "BB") #生成名为credit_rating的字符向量 > credit_factor <- factor(credit_rating) #
-
R语言 实现将1对多数据与1对1数据互换
想了好长时间名字,不知道要解决的问题的名字叫什么,直接上问题demo 问题demo 现在有用户消费金额的数据: 用户 日期 金额 小明 2016-01 300 小明 2016-02 500 小明 2016-03 400 小刘 2016-01 700 小刘 2016-02 800 小刘 2016-03 600 我将以上数据格式为一对多数据(想不出好名字,敬请大家拍砖) 还有一种数据形式如下,我将如下格式数据称为1对1数据 用户 2016-01 2016-02 2016-03 小明 300 500
-
R语言之左连接的三种实现操作
数据处理中经常遇到表连接问题,本次介绍R语言中三种左连接方法,这三种是等价的,不过会有时间快慢问题,斟酌使用. 法一: > data0 <- merge(a,c,all.x=TRUE,by='CELLPHONE') 法二: > data1 <- sqldf('select a.*,b.* from a left join c on a.CELLPHONE=c.CELLPHONE') 法三: > data2 <- c[a,on='CELLPHONE'] 注意:第三种方法的
-
R语言将变量分组的3种方法实例(含cut函数说明)
目录 前言 方法一:直接对分组变量进行赋值 方法二:使用within函数对变量进行分组 方法三:采用cut函数 总结 前言 在数据处理的过程中,我们有时候需要将连续的数值数据转换为类别数据,比如将收入分成高.中和低三组,将学生成绩分为优.良.中.及格和不及格五组. 本来将基于R语言,采用三种方法来实现:第一种是对变量直接进行重新赋值,第二种是使用within函数对语句进行组织,第三种是cut函数. 首先我们定义一个数据框,这个数据框包括学生姓名和数学成绩两个变量. #定义数据框 mathScor
-
C语言中函数指针的三种使用方法总结
C语言中函数指针的三种使用方法总结 在这里分享一下自己的心得,希望和大家一起分享技术,如果有什么不足,还请大家指正.写出这篇目的,就是希望大家一起成长,我也相信技术之间没有高低,只有互补,只有分享,才能使彼此更加成长. 定义方式:int (*p)(int x, int y); 实现代码: #include <stdio.h> int sum(int x, int y){ return x + y; } int reduce(int x, int y){ return x - y; } int
-
C语言求阶乘之和的三种实现方法(先阶乘再累加)
目录 题目: 方法一:使用一层for循环实现 代码简单快捷容易理解 方法二:使用两层for循环嵌套 方法三:函数递归实现 总结 题目: 此处题目是以1-20的阶乘之和举例 方法一:使用一层for循环实现 代码简单快捷容易理解 代码示例如下: #include<stdio.h> int main() { double a = 1, sum = 0;//因为最后值可能会超出int所能接收的范围 故用double int n, i; scanf("%d", &n);//注
-
Go语言拼接URL路径的三种方法
目录 JoinPath ResolveReference path.Join 参考 Go语言拼接URL路径有多种方法建议用ResolveReference. JoinPath JoinPath会把多个多个路径合并成一个路径,并且处理../和./,多个//合并成单个/. package main import ( "fmt" "net/url" ) func main() { u1 := "http://example.com/dir
-
C语言移除元素的三种思路讲解
目录 问题描述 解题方案 思路一 思路二 思路三(最优解) 问题描述 原题链接:https://leetcode.cn/problems/remove-element/ 解题方案 思路一 思路一: 首先通过简单分析,很明显这是一道顺序表相关问题.首先能够想到的是暴力求解,即思路一:找到所有的val,每次挪动val后的数据覆盖删除val. 代码展示: int find(int*nums,int numsSize,int val) { int i=0; for(i=0;i<numsSize;i++)
-
Android 三种延迟操作的实现方法
Android 三种延迟操作的实现方法 实现方法: 一.线程 new Thread(new Runnable(){ public void run(){ Thread.sleep(XXXX); handler.sendMessage();----告诉主线程执行任务 } }).start 二.延时器 TimerTask task = new TimerTask(){ public void run(){ //execute the task } }; Timer timer = new Timer
-
R语言导入导出数据的几种方法汇总
导出: 对于某一数据集导出文件的方法 导出例子:write.csv(data_1,file = "d:/1111111111.csv") 其中data_1是你的数据集,file是你的存储路径和要存储的名字 导入: 1 使用键盘输入数据 (1) 创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致: (2)针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中. 在下例中,你将创建一个名为mydata的数据框,它含有三个变量:age(数值型).
-
python实现字符串连接的三种方法及其效率、适用场景详解
python字符串连接的方法,一般有以下三种: 方法1:直接通过加号(+)操作符连接 website = 'python' + 'tab' + '.com' 方法2:join方法 listStr = ['python', 'tab', '.com'] website = ''.join(listStr) 方法3:替换 website = '%s%s%s' % ('python', 'tab', '.com') 下面再来说一下三种方法的不同 方法1,使用简单直接,但是网上不少人说这种方法效率低
-
R语言变量重编码、重命名的操作
1.变量重编码 重编码涉及根据同一个变量和/或其他变量的现有值创建新值的过程,如将符合某个条件的值重新赋值等,这里主要介绍两种常见的方法: #第一种方法 per <- data.frame(name = c("张三","李四","王五","赵六"), age = c(23,45,34,1000)) per per$age[per$age == 1000] <- NA #设置缺失值 per$age1[per$age
随机推荐
- ThinkPHP查询语句与关联查询用法实例
- PHP+MySQL 手工注入语句大全 推荐
- ComboBox 和 DateField 在IE下消失的解决方法
- ios仿侧边抽屉效果实现代码
- 王纯业的Python学习笔记 下载
- swift中c风格的for循环执行效率
- PHP中使用socket方式GET、POST数据实例
- 浅谈php7的重大新特性
- php 把数字转换成汉字的代码
- Android下拉列表(Spinner)效果(使用C#和Java分别实现)
- Python编程生成随机用户名及密码的方法示例
- Python单元测试框架unittest使用方法讲解
- javascript 操作Word和Excel的实现代码
- Ajax执行顺序流程及回调问题分析
- javascript实现3D变换的立体圆圈实例
- dim函数第三个参数设置截取字符的长度问题
- struts2 中文乱码的解决办法分享
- Python安装Imaging报错:The _imaging C module is not installed问题解决方法
- Mongodb增加、移除Shard Server实例
- JavaScript 参考教程