R语言实现对数据框按某一列分组求组内平均值

2025-02-20 19:04:26

可使用aggregate函数

如：

aggregate(.~ID,data=这个数据框名字，mean)

如果是对数据框分组，组内有重复的项，对于重复项保留最后一行数据用：

pcm_df$duplicated <- duplicated(paste(pcm_df$OUT_MAT_NO, pcm_df$Posit, sep = "_"), fromLast = TRUE)
pcm_df <- subset(pcm_df, !duplicated)
pcm_df$duplicated <- NULL

补充：R语言分组求和，分组求平均值，分组计数

我们经常可能需要把一个数据按照某一属性分组，然后计算一些统计值。在R语言里面，aggregate函数就可以办到。

## S3 method for class 'data.frame'
aggregate(x, by, FUN, ..., simplify = TRUE, drop = TRUE)

我们常用到的参数是：x, by, FUN。

x, 你想要计算的属性或者列。

by, 是一个list，可以指定一个或者多个列作为分组的基础。

FUN, 指定一个函数，用来计算，可以作用在所有分组的数据上面。

假如这个是我们的数据。

type<-c("a","b","c","a","c","d","b","a","c","b")
value<-c(53,15,8,99,76,22,46,56,34,54)
df<-data.frame(type,value)
df
  type value
1   a  53
2   b  15
3   c   8
4   a  99
5   c  76
6   d  22
7   b  46
8   a  56
9   c  34
10  b  54

分组求和

 aggregate(df$value, by=list(type=df$type),sum)
 type  x
1  a 208
2  b 115
3  c 118
4  d 22

分组求平均值

分组求平均很简单，只要将上面的sum改成mean就可以了。

aggregate(df$value, by=list(type=df$type),mean)
 type    x
1  a 69.33333
2  b 38.33333
3  c 39.33333
4  d 22.00000

分组计数

分组计数就是在分组的情况下统计rows的数目。

aggregate(df$value, by=list(type=df$type),length)
 type x
1  a 3
2  b 3
3  c 3
4  d 1

基于多个属性分组求和。

我们在原有的数据上加上一列，可以看看多属性分组。

type_2 <-c("F","M","M","F","F","M","M","F","M","M")
df <- data.frame(df, type_2)
df
  type value type_2
1   a  53   F
2   b  15   M
3   c   8   M
4   a  99   F
5   c  76   F
6   d  22   M
7   b  46   M
8   a  56   F
9   c  34   M
10  b  54   M

aggregate(x=df$value, by=list(df$type,df$type_2),sum)
 Group.1 Group.2  x
1    a    F 208
2    c    F 76
3    b    M 115
4    c    M 42
5    d    M 22

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

R语言归一化处理实例讲解

归一化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内.首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快. R语言中的归一化函数:scale 数据归一化包括数据的中心化和数据的标准化. 1. 数据的中心化所谓数据的中心化是指数据集中的各项数据减去数据集的均值. 例如有数据集1, 2, 3, 6, 3,其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0 2. 数据的标准化所谓数据的标准化是指中心化之后
linux命令行下使用R语言绘图实例讲解

使用系统:centos 6.4 64bit 在R语言中可以使用png()等函数生成图片,例如: png("aa.png")可以生成图片. 但是如果你是通过shell远程连接到系统上,可能会碰到如下错误: > png("aa.png") 错误于.External2(C_X11, paste("png::", filename, sep = ""), g$width, : 无法打开PNG设备此外: 警告信息: In
R语言的xtabs函数实例讲解

今天在做一个列联表独立性检验的时候,总是无法处理好要求的数据类型,偶然的机会,看到了xtabs()函数,感觉很适合用来做列联表,适合将一列数据转换成列联表. shifou <- c("yes","yes","no","no") xinbie <- c("nan","nv","nan","nv") freq <- c(34,38,2
R语言基本语法深入讲解

基本数据类型数据类型向量 vector 矩阵 matrix 数组 array 数据框 data frame 因子 factor 列表 list 向量单个数值(标量)没有单独的数据类型,它只不过是向量的一种特例向量的元素必须属于某种模式(mode),可以整型(integer).数值型(numeric).字符型(character).逻辑型(logical).复数型(complex) 循环补齐(recycle):在一定情况下自动延长向量筛选:提取向量子集向量化:对向量的每一个元素应用函数
R语言绘制空间热力图实例讲解

先上图 R语言的REmap包拥有非常强大的空间热力图以及空间迁移图功能,里面内置了国内外诸多城市坐标数据,使用起来方便快捷. 开始首先安装相关包 install_packages("devtools") install_packages("REmap") library(devtools) library(REmap) 我们来试试其强大的城市坐标获取功能 city<- c("beijing","上海") get_geo_
R语言写2048游戏实例讲解

2048 是一款益智游戏,只需要用方向键让两两相同的数字碰撞就会诞生一个翻倍的数字,初始数字由 2 或者 4 构成,直到游戏界面全部被填满,游戏结束. 编程时并未查看原作者代码,不喜勿喷. 程序结构如下: R语言代码: #!/usr/bin/Rscript #画背景 draw_bg <- function(){ plot(0,0,xlim=c(0,0.8),ylim=c(0,0.8),type='n',xaxs="i", yaxs="i") for (i in
R语言用均值替换、回归插补及多重插补进行插补的操作

用均值替换.回归插补及多重插补进行插补 # 设置工作空间 # 把"数据及程序"文件夹拷贝到F盘下,再用setwd设置工作空间 setwd("E:\\R_workspace\\R语言数据分析与挖掘实战\\chp4") # 读取销售数据文件,提取标题行 inputfile <- read.csv('./data/catering_sale.csv', header = TRUE) View(inputfile) # 变换变量名 inputfile <- da
R语言实现对数据框按某一列分组求组内平均值

可使用aggregate函数如: aggregate(.~ID,data=这个数据框名字,mean) 如果是对数据框分组,组内有重复的项,对于重复项保留最后一行数据用: pcm_df$duplicated <- duplicated(paste(pcm_df$OUT_MAT_NO, pcm_df$Posit, sep = "_"), fromLast = TRUE) pcm_df <- subset(pcm_df, !duplicated) pcm_df$duplicat
R语言中对数据框的列名重命名的实现

报错类型 Error: All arguments must be named plyr中的rename和dplyr中的rename用法是不同的. plyr::rename rename(data, c(old=new)) dplyr::rename rename(data, new = old) Example 比如, 默认的是plyr的rename, 运行下面命令, 会报错: d <- data.frame(old1=1:3, old2=4:6, old3=7:9) d library(ti
R语言删除/添加数据框中的某一行/列

假如数据是这样的,这是有一个数据框 > A <- data.frame(姓名 = c("张三", "李四", "王五"), 体重 = c(50, 70, 80), 视力 = c(5.0, 4.8, 5.2)) > A 姓名体重视力 1 张三 50 5.0 2 李四 70 4.8 3 王五 80 5.2 删除第一行"张三"的信息 > A <- A[-1,] > A 姓名体重视力 2 李
R语言列表和数据框的具体使用

目录 1.列表 1.1创建 1.2 访问 1.3 注意 2.数据框 2.1 创建 2.2 访问 1.列表列表“list”是一种比较的特别的对象集合,不同的序号对于不同的元素,当然元素的也可以是不同类型的,那么我们用R语言先简单来构造一个列表. 1.1创建 > a<-c(1:20) > b<-matrix(1:20,4,5) > mlist<-list(a,b) > mlist [[1]] [1] 1 2 3 4 5 6 7 8 9 10 11
R语言-如何定义数据框的列名

1.在定义数据框时,定义列名: 例如: a<-c(2,23,45,6,7,1,6,7) b<-c(4,6,1,2,5,66,10,2) df<-data.frame(a,b) 此时数据框df中的列名分别是a.b 也可以如下: df<-data.frame(a1=a,b1=b) 此时的列名是a1.b1 2.修改数据框中列的名字如果希望修改数据框中的列名,可以使用name函数进行修改例如: names(df)<-c("a2","b2")
R语言实现将数据框中的字符类型数字转换为数值

场景1 我现在有一个数据框datexpr,里面的数字都是以字符型表示的,像这样 > datexpr[1,1] [1] " 1.143773961" 现在我想把这个数据框中的字符型数字全部转为数值型数字使用下面语句即可 datexpr2=as.data.frame(lapply(datexpr,as.numeric)) 现在再次查看,就是数值型啦,整个数据框中的内容也都是数值型的啦 > datexpr2[1,1] [1] 1.143774 场景2 我现在有一个数据框date
R语言导入导出数据的几种方法汇总

导出: 对于某一数据集导出文件的方法导出例子:write.csv(data_1,file = "d:/1111111111.csv") 其中data_1是你的数据集,file是你的存储路径和要存储的名字导入: 1 使用键盘输入数据 (1) 创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致: (2)针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中. 在下例中,你将创建一个名为mydata的数据框,它含有三个变量:age(数值型).
R语言读取excel数据的方法(两行命令)

安装库安装xlsx install.packages("xlsx") 使用 library(xlsx) ray = read.xlsx('D:/Code/R/Data in Excel/Chapter 8/gamma-ray.xls',1) 后面的参数,第一个放地址,第二个放具体sheet页(这里除了可以放数值之外,还可以放对应的名字(字符串)).除此之外,还可以使用encoding="utf-8"的方式来定义使用中文数据. 效果: > a = read.x
R语言导入CSV数据的简单方法

第一.查看读取路径:getwd() ``` getwd() #获取文件存储位置 [1] "E:/R/meta-rbook-examples" #文件位置,如果是自己想要的存储位置可以直接将文件放到这里,如果不是更改路径. `` 第二.修改路径: setwd("E:/R")#设置新的路径`,将文件放入该文件夹中第三.读取CSV文件: data1<-read.csv("dataset01.csv",as.is = TRUE)#读取文件名为:d
R语言对Web数据操作实例

许多网站提供数据供其用户使用. 例如,世界卫生组织(WHO)以CSV,txt和XML文件的形式提供健康和医疗信息的报告. 使用R语言程序,我们可以从这些网站以编程方式提取特定数据. R语言中用于从网站中提取数据的一些包是"RCurl",XML"和"stringr",它们用于连接到URL,识别文件所需的链接并将它们下载到本地环境. 安装R语言的包处理URL和链接到文件需要以下的包. 如果它们在R语言环境中不可用,您可以使用以下命令安装它们. install

R语言实现对数据框按某一列分组求组内平均值

可使用aggregate函数

分组求和

分组求平均值

分组计数

相关推荐

随机推荐