详解R语言数据合并一行代码搞定

数据的合并

需要的函数

cbind(),rbind(),bind_rows(),merge()

准备数据

我们先构造一组数据,以便下面的演示

> data1<-data.frame(
+  namea=c("海波","立波","秀波"),
+  value=c("一波","接","一波")
+ )
> data1
 namea value
1 海波 一波
2 立波  接
3 秀波 一波
> data2<-data.frame(
+  nameb=c("柯震东","刘强东","何盛东"),
+  value=c("东去","又","东来")
+ )
> data2
  nameb value
1 柯震东 东去
2 刘强东  又
3 何盛东 东来

按列合并

> cbind(data1,data2)
 namea value nameb value
1 海波 一波 柯震东 东去
2 立波  接 刘强东  又
3 秀波 一波 何盛东 东来

按行合并

按列合并是cbind(),那么按行合并自然是rbind()

> rbind(data1,data2)
Error in match.names(clabs, names(xi)) : 名字同原来已有的名字不相对

出现了错误,这是因为”namea“ 和”nameb“不同造成的,如果都为"namea" :

> data1<-data.frame(
+  namea=c("海波","立波","秀波"),
+  value=c("一波","接","一波")
+ )
> data1
 namea value
1 海波 一波
2 立波  接
3 秀波 一波
> data2<-data.frame(
+  namea=c("柯震东","刘强东","何盛东"),
+  value=c("东去","又","东来")
+ )
> data2
  namea value
1 柯震东 东去
2 刘强东  又
3 何盛东 东来
> #cbind(data1,data2)
> rbind(data1,data2)
  namea value
1  海波 一波
2  立波  接
3  秀波 一波
4 柯震东 东去
5 刘强东  又
6 何盛东 东来

对数据修改后,没有出现错误。如果 不修改数据该怎么做:

​ 为了解决这个问题,使用dplyr包中的bind_rows()函数,不要求合并字段的名称必须相同,这个函数会自己做判断。

> library(dplyr)
> dplyr::bind_rows(data1,data2)
 namea value nameb
1 海波 一波  <NA>
2 立波  接  <NA>
3 秀波 一波  <NA>
4 <NA> 东去 柯震东
5 <NA>  又 刘强东
6 <NA> 东来 何盛东

merge()

merge(x, y, by = intersect(names(x), names(y)),
   by.x = by, by.y = by, all = FALSE,
   all.x = all, all.y = all,
   sort = TRUE, suffixes = c(".x",".y"),
   incomparables = NULL, ...)

merge函数参数的说明:

  • x,y:用于合并的两个数据框
  • by,by.x,by.y:指定依据哪些行合并数据框,默认值为相同列名的列.
  • all,all.x,all.y:指定x和y的行是否应该全在输出文件.
  • sort:by指定的列是否要排序.
  • suffixes:指定除by外相同列名的后缀.
  • incomparables:指定by中哪些单元不进行合并.

演示merge()

data3<-data.frame(
 name = c("波","东","波","波"),
 type = c("秀","震","秀","秀"),
 class = c(10,5,4,11),
 num = c(85,50,90,90)
);data3
data4<-data_frame(
 name = c("波","东"),
 type = c("海","震"),
 class = c(5,5),
 num = c(88,81)
);data4
#合并data3和data4
> merge(data3,data4,all =T)
 name type class num
1  波  秀   4 90
2  波  秀  10 85
3  波  秀  11 90
4  波  海   5 88
5  东  震   5 50
6  东  震   5 81
#按照name,type,class合并data3.data4
> merge(data3, data4, by =c("name","type","class") , all = T)
 name type class num.x num.y
1  波  秀   4  90  NA
2  波  秀  10  85  NA
3  波  秀  11  90  NA
4  波  海   5  NA  88
5  东  震   5  50  81

到此这篇关于详解R语言数据合并一行代码搞定的文章就介绍到这了,更多相关R语言数据合并内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • R语言数据框合并(merge)的几种方式小结

    merge data frames (inner, outer, left, right) 数据 > df1 = data.frame(CustomerId = c(1:6), Product = c(rep("Toaster", 3), rep("Radio", 3))) > df1 > CustomerId Product 1 1 Toaster 2 2 Toaster 3 3 Toaster 4 4 Radio 5 5 Radio 6 6 R

  • 详解R语言数据合并一行代码搞定

    数据的合并 需要的函数 cbind(),rbind(),bind_rows(),merge() 准备数据 我们先构造一组数据,以便下面的演示 > data1<-data.frame( + namea=c("海波","立波","秀波"), + value=c("一波","接","一波") + ) > data1 namea value 1 海波 一波 2 立波 接 3 秀

  • 详解R语言中的表达式、数学公式、特殊符号

      在R语言的绘图函数中,如果文本参数是合法的R语言表达式,那么这个表达式就被用Tex类似的规则进行文本格式化. y <- function(x) (exp(-(x^2)/2))/sqrt(2*pi) plot(y, -5, 5, main = expression(f(x) == frac(1,sqrt(2*pi))*e^(-frac(x^2,2))), lwd = 3, col = "blue") library(ggplot2) x <- seq(0, 2*pi, b

  • 详解R语言中生存分析模型与时间依赖性ROC曲线可视化

    R语言简介 R是用于统计分析.绘图的语言和操作环境.R是属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具. 人们通常使用接收者操作特征曲线(ROC)进行二元结果逻辑回归.但是,流行病学研究中感兴趣的结果通常是事件发生时间.使用随时间变化的时间依赖性ROC可以更全面地描述这种情况下的预测模型. 时间依赖性ROC定义 令 Mi为用于死亡率预测的基线(时间0)标量标记. 当随时间推移观察到结果时,其预测性能取决于评估时间 t.直观地说,在零时间测量的标记值应该

  • 详解R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

    在标准线性模型中,我们假设 .当线性假设无法满足时,可以考虑使用其他方法. 多项式回归 扩展可能是假设某些多项式函数, 同样,在标准线性模型方法(使用GLM的条件正态分布)中,参数  可以使用最小二乘法获得,其中  在  . 即使此多项式模型不是真正的多项式模型,也可能仍然是一个很好的近似值 .实际上,根据 Stone-Weierstrass定理,如果  在某个区间上是连续的,则有一个统一的近似值  ,通过多项式函数. 仅作说明,请考虑以下数据集 db = data.frame(x=xr,y=y

  • 详解R语言实现前向逐步回归(前向选择模型)

    目录 前向逐步回归原理 数据导入并分组 导入数据 特征与标签分开存放 前向逐步回归构建输出特征集合 从空开始一次创建属性列表 模型效果评估 前向逐步回归原理 前向逐步回归的过程是:遍历属性的一列子集,选择使模型效果最好的那一列属性.接着寻找与其组合效果最好的第二列属性,而不是遍历所有的两列子集.以此类推,每次遍历时,子集都包含上一次遍历得到的最优子集.这样,每次遍历都会选择一个新的属性添加到特征集合中,直至特征集合中特征个数不能再增加. 数据导入并分组 导入数据,将数据集抽取70%作为训练集,剩

  • 详解Python小数据池和代码块缓存机制

    前言 本文除"总结"外,其余均为认识过程:3.7.5:这部分官方文档不知道在哪里找,目前没有找到,有谁知道的可以麻烦留言吗? 谢谢了! 总结: 如果在同一代码块下,则采用同一代码块下的缓存机制: 如果是不同代码块,则采用小数据池的驻留机制: 需要注意的是,交互式输入时,每个命令都是一个代码块: 实现 Intern 保留机制的方式非常简单,就是通过维护一个字符串储蓄池,这个池子是一个字典结构,编译时,如果字符串已经存在于池子中就不再去创建新的字符串,直接返回之前创建好的字符串对象, 如果

  • 详解R语言图像处理EBImage包

    目录 什么是EBImage 1. 图像读取与保存 2.色彩管理 3.图像处理 4.空间变换 5.形态运算 6.图像分割 本文摘自<Keras深度学习:入门.实战及进阶>第四章部分章节. 什么是EBImage EBImage是R的一个扩展包,提供了用于读取.写入.处理和分析图像的通用功能,非常容易上手.EBImage包在Bioconductor中,通过以下命令进行安装. install.packages("BiocManager") BiocManager::install(

  • 详解R语言caret包trainControl函数

    目录 trainControl参数详解 源码 参数详解 示例 trainControl参数详解 源码 caret::trainControl <- function (method = "boot", number = ifelse(grepl("cv", method), 10, 25), repeats = ifelse(grepl("[d_]cv$", method), 1, NA), p = 0.75, search = "

  • 详解R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计

    MCMC是从复杂概率模型中采样的通用技术. 蒙特卡洛 马尔可夫链 Metropolis-Hastings算法 问题 如果需要计算有复杂后验pdf p(θ| y)的随机变量θ的函数f(θ)的平均值或期望值. 您可能需要计算后验概率分布p(θ)的最大值. 解决期望值的一种方法是从p(θ)绘制N个随机样本,当N足够大时,我们可以通过以下公式逼近期望值或最大值 将相同的策略应用于通过从p(θ| y)采样并取样本集中的最大值来找到argmaxp(θ| y). 解决方法 1.1直接模拟 1.2逆CDF 1.

  • 详解R语言plot函数参数合集

    最近用R语言画图,plot 函数是用的最多的函数,而他的参数非常繁多,由此总结一下,以供后续方便查阅. plot(x, y = NULL, type = "p", xlim = NULL, ylim = NULL, log = "", main = NULL, sub = NULL, xlab = NULL, ylab = NULL, ann = par("ann"), axes = TRUE, frame.plot = axes, panel.

随机推荐