pandas分组聚合详解

2025-02-22 08:14:20

一前言

pandas学到分组迭代，那么基础的pandas系列就学的差不多了，自我感觉不错，知识追寻者用pandas处理过一些数据，蛮好用的；

知识追寻者(Inheriting the spirit of open source, Spreading technology knowledge;)

二分组

2.1 数据准备

# -*- coding: utf-8 -*-

import pandas as pd
import numpy as np

frame = pd.DataFrame({
 'user' : ['zszxz','craler','rose','zszxz','rose'],
 'hobby' : ['reading','running','hiking','reading','hiking'],
 'price' : np.random.randn(5),
 'number' : np.random.randn(5)
})
print(frame)

输出

user    hobby     price    number
0   zszxz reading 0.275752 -0.075841
1 craler running -1.410682 0.259869
2    rose   hiking -0.353269 -0.392659
3   zszxz reading 1.484604 0.659274
4    rose   hiking -1.348315 2.492047

2.2 分组求均值

提取DataFrame中price 列，根据hobby列进行分组，最后对分好组的数据进行处理求均值；

# 是个生成器
group = frame['price'].groupby(frame['hobby'])
# 求均值
print(group.mean())

输出

hobby
hiking    -0.850792
reading    0.880178
running   -1.410682
Name: price, dtype: float64

Tip: 可以理解为根据爱好分组，查询价格；查询的列必须是数字，否则求均值时会报异常

如果是根据多列分组则在groupby后面使用列表指定，并且调用求均值函数；输出的值将是分组列，均值结果；

group = frame['price'].groupby([frame['hobby'],frame['user']])
print(group.mean())

输出

hobby    user
hiking   rose      0.063972
reading zszxz     0.393164
running craler   -1.395186
Name: price, dtype: float64

如果对整个DataFrame进行分组，则不再需要提取指定的列；

group = frame.groupby(frame['hobby'])
print(group.mean())

输出

hobby
hiking -0.116659 -0.316222
reading -0.651365 0.856299
running -0.282676 -0.585124

Tip: 求均值后，默认是对数字类型的数据进行分组求均值；非数字列自动忽略

2.3 分组求数量

分组求数量是统计分析中应用最为广泛的函数；如下示例中对DataFrame根据hobby分组，并且调用 size()函数统计个数；此方法常用的统计技巧；

group = frame.groupby(frame['hobby'])
print(group.size())

输出

hobby
hiking     2
reading    2
running    1
dtype: int64

2.4 分组迭代

当对groupby的列只有单个时（示例根据hobby进行分组），可以使用 key , value 形式对分组后的数据进行迭代，其中key 是分组的名称，value是分组的数据；

group = frame['price'].groupby(frame['hobby'])
for key , data in group:
 print(key)
 print(data)

输出

hiking
2   -0.669410
4   -0.246816
Name: price, dtype: float64
reading
0    1.362191
3   -0.052538
Name: price, dtype: float64
running
1    0.8963
Name: price, dtype: float64

当对多个列进行分组迭代时，有多少列则需要指定多少个key与其对应，key可以是任何不重复的变量名称

group = frame['price'].groupby([frame['hobby'],frame['user']])
for (key1, key2) , data in group:
 print(key1,key2)
 print(data)

输出

hiking rose
2   -0.019423
4   -2.642912
Name: price, dtype: float64
reading zszxz
0    0.405016
3    0.422182
Name: price, dtype: float64
running craler
1   -0.724752
Name: price, dtype: float64

2.5 分组数据转为字典

可以对分组后的数据转为字典；

dic = dict(list(frame.groupby(frame['hobby'])))
print(dic)

输出

{'hiking':    user   hobby     price    number
2 rose hiking 0.351633 0.523272
4 rose hiking 0.800039 0.331646,
'reading':     user    hobby     price    number
0 zszxz reading -0.074857 -0.928798
3 zszxz reading 0.666925 0.606706,
'running':      user    hobby     price    number
1 craler running -2.525633 0.895776}

获取key

print(dic['hiking'])

输出

user hobby price number
2 rose hiking 0.382225 -0.242055
4 rose hiking 1.055785 -0.328943

2.6 分组取值

对frame进行hobby分组，就算查询 price 的均值；返回Series；

mean = frame.groupby('hobby')['price'].mean()
print(type(mean))
print(mean)

输出

<class 'pandas.core.series.Series'>
hobby
hiking     0.973211
reading   -1.393790
running   -0.286236
Name: price, dtype: float64

Tip: frame.groupby(‘hobby')[‘price'] 与 frame[‘price'] .groupby(frame[‘hobby']) 相等

如果想要返回 DataFrame

mean = frame.groupby('hobby')[['price']].mean()
print(type(mean))
print(mean)

输出

<class 'pandas.core.frame.DataFrame'>
            price
hobby
hiking   0.973211
reading -1.393790
running -0.286236

2.5 Series作为分组

也可以传入Series作为DataFrame的分组列

ser = pd.Series(['hiking','reading','running'])
data = frame.groupby(ser).mean()
print(data)

输出

price number
hiking 1.233396 0.313839
reading -0.298887 0.982853
running -0.797734 -1.230811

Tip: 本质上都是数组，除了Series，还可以使用字典，列表，数组，函数作为分组列

2.6 通过索引层级分组

传入级别的名称即可实现层级化索引分组

# 创建2个列，并且指定名称
columns = pd.MultiIndex.from_arrays([['Python', 'Java', 'Python', 'Java', 'Python'],
          ['a', 'b', 'a', 'b', 'c']], names=['language', 'alpha'])
frame = pd.DataFrame(np.random.randint(1, 10, (5, 5)), columns=columns)
print(frame)

# 根据language进行分组
print(frame.groupby(level='language', axis=1).sum())
# 根据index进行分组
print(frame.groupby(level='alpha', axis=1).sum())

frame输出如下

language Python Java Python Java Python
alpha         a    b      a    b      c
0             9    9      7    4      5
1             3    4      7    6      6
2             6    6      3    9      1
3             1    1      8    5      2
4             6    5      9    5      4

language分组如下

language Java Python
0           13      21
1           10      16
2           15      10
3            6      11
4           10      19

alpha分组如下

alpha   a   b c
0      16 13 5
1      10 10 6
2       9 15 1
3       9   6 2
4      15 10 4

到此这篇关于pandas分组聚合详解的文章就介绍到这了,更多相关pandas 分组聚合内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python Pandas分组聚合的实现方法

Pycharm 鼠标移动到函数上,CTRL+Q可以快速查看文档,CTR+P可以看基本的参数. apply(),applymap()和map() apply()和applymap()是DataFrame的函数,map()是Series的函数. apply()的操作对象是DataFrame的一行或者一列数据,applymap()是DataFrame的每一个元素.map()也是Series中的每一个元素. apply()对dataframe的内容进行批量处理, 这样要比循环来得快.如df.apply(
pandas分组聚合详解

一前言 pandas学到分组迭代,那么基础的pandas系列就学的差不多了,自我感觉不错,知识追寻者用pandas处理过一些数据,蛮好用的: 知识追寻者(Inheriting the spirit of open source, Spreading technology knowledge;) 二分组 2.1 数据准备 # -*- coding: utf-8 -*- import pandas as pd import numpy as np frame = pd.DataFrame({ '
MySQL必备基础之分组函数聚合函数分组查询详解

目录一.简单使用二.搭配DISTINCT去重三.COUNT()详细介绍四.分组查询一.简单使用 SUM:求和(一般用于处理数值型) AVG:平均(一般用于处理数值型) MAX:最大(也可以用于处理字符串和日期) MIN:最小(也可以用于处理字符串和日期) COUNT:数量(统计非空值的数据个数) 以上分组函数都忽略空NULL值的数据 SELECT SUM(salary) AS 和,AVG(salary) AS 平均,MAX(salary) AS 最大,MIN(salary) AS 最小
Python pandas常用函数详解

本文研究的主要是pandas常用函数,具体介绍如下. 1 import语句 import pandas as pd import numpy as np import matplotlib.pyplot as plt import datetime import re 2 文件读取 df = pd.read_csv(path='file.csv') 参数:header=None 用默认列名,0,1,2,3... names=['A', 'B', 'C'...] 自定义列名 index_col='
Pandas 数据处理,数据清洗详解

如下所示: # -*-coding:utf-8-*- from pandas import DataFrame import pandas as pd import numpy as np """ 获取行列数据 """ df = DataFrame(np.random.rand(4, 5), columns=['A', 'B', 'C', 'D', 'E']) print df print df['col_sum'] = df.apply(lam
Pandas时间序列基础详解(转换,索引,切片)

时间序列的类型: 时间戳:具体的时刻固定的时间区间:例如2007年的1月或整个2010年时间间隔:由开始时间和结束时间表示,时间区间可以被认为是间隔的特殊情况实验时间和消耗时间:每个时间是相对于特定开始时间的时间的量度,(例如自从被放置在烤箱中每秒烘烤的饼干的直径) 日期和时间数据的类型及工具 datetime模块中的类型: date 使用公历日历存储日历日期(年,月,日) time 将时间存储为小时,分钟,秒,微秒 datetime 存储日期和时间 timedelta 表示两个datet
python绘图pyecharts+pandas的使用详解

pyecharts介绍 pyecharts 是一个用于生成 Echarts 图表的类库.Echarts 是百度开源的一个数据可视化 JS 库.用 Echarts 生成的图可视化效果非常棒为避免绘制缺漏,建议全部安装为了避免下载缓慢,作者全部使用镜像源下载过了 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ echarts-countries-pypkg pip install -i https://pypi.tuna.tsin
python pandas分组聚合详细

目录 python pandas分组聚合 1.环境 2.分组 3.序列分组 4.多列分组 5.索引分组 7.聚合 8.单函数对多列 9.多函数对多列 python pandas分组聚合 1.环境 python3.9 win10 64bit pandas==1.2.1 groupby方法是pandas中的分组方法,对数据框采用groupby方法后,返回的是DataFrameGroupBy对象,一般分组操作后会进行聚合操作. 2.分组 import pandas as pd import numpy
MySQL数据库学习之分组函数详解

目录 1.分组函数极值求和平均值列数和 2.分组查询 3.小练习 4.大BOSS 1.分组函数极值示例表内容见此篇文章找出最高工资: mysql> select max(sal) from emp; +----------+ | max(sal) | +----------+ | 5000.00 | +----------+ 1 row in set (0.00 sec) 找出最低工资: mysql> select min(sal) from emp; +----------+
Maven继承与聚合详解及作用介绍

目录一.继承引言 1. 继承关系的实现 2. 依赖配置二.聚合引言实现聚合三.继承与聚合的合并一.继承引言继承关系可以对不同模块的依赖版本做统一管理,因为子模块中的依赖基本都继承于父模块,父模块中指定哪个版本,子模块就继承哪个版本,可以有效避免不同模块可能采用不同版本的依赖时产生的冲突 1. 继承关系的实现 (1)parent 模块设置 parent 模块即父模块,由于父模块只是为了给子模块提供依赖,所以父模块中只需要一个 pom.xml 文件即可.父模块的打包方式必须设置为

pandas分组聚合详解

相关推荐

随机推荐