Python Pandas分组聚合的实现方法

2026-05-04 18:18:30

Pycharm 鼠标移动到函数上，CTRL+Q可以快速查看文档，CTR+P可以看基本的参数。

apply(),applymap()和map()

apply()和applymap()是DataFrame的函数，map()是Series的函数。

apply()的操作对象是DataFrame的一行或者一列数据，applymap()是DataFrame的每一个元素。map()也是Series中的每一个元素。

apply()对dataframe的内容进行批量处理, 这样要比循环来得快。如df.apply(func,axis=0,.....) func：定义的函数，axis=0时为对列操作，=1时为对行操作。

map()和python内建的没啥区别，如df['one'].map(sqrt)。

import numpy as np

from pandas import Series, DataFrame

frame = DataFrame(np.random.randn(4, 3),

         columns = list('bde'),

         index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

print frame

print np.abs(frame)

print

f = lambda x: x.max() - x.min()

print frame.apply(f)

print frame.apply(f, axis = 1)

def f(x):

  return Series([x.min(), x.max()], index = ['min', 'max'])

print frame.apply(f)

print

print 'applymap和map'

_format = lambda x: '%.2f' % x

print frame.applymap(_format)

print frame['e'].map(_format)

Groupby

Groupby是Pandas中最为常用和有效的分组函数，有sum()、count()、mean()等统计函数。

groupby 方法返回的 DataFrameGroupBy 对象实际并不包含数据内容，它记录的是df['key1'] 的中间数据。当你对分组数据应用函数或其他聚合运算时，pandas 再依据 groupby 对象内记录的信息对 df 进行快速分块运算，并返回结果。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby(df['key1'])

print grouped.mean() 

df.groupby(lambda x:'even' if x%2==0 else 'odd').mean() #通过函数分组

聚合agg()

对于分组的某一列(行)或者多个列(行，axis=0/1)，应用agg(func)可以对分组后的数据应用func函数。例如：用grouped['data1'].agg('mean')也是对分组后的'data1'列求均值。当然也可以同时作用于多个列(行)和使用多个函数上。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby('key1')

print grouped.agg('mean')

     data1   data2

key1          

a   0.749117 0.220249

b  -0.567971 -0.126922

apply()和agg()功能上差不多,apply()常用来处理不同分组的缺失数据的填充和top N的计算，会产生层级索引。

而agg可以同时传入多个函数，作用于不同的列。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby('key1')

print grouped.agg(['sum','mean'])
print grouped.apply(np.sum)  #apply的在这里同样适用，只是不能传入多个,这两个函数基本是可以通用的。

data1               data2
           sum      mean       sum      mean
key1
a     2.780273 0.926758 -1.561696 -0.520565
b    -0.308320 -0.154160 -1.382162 -0.691081

data1     data2 key1       key2
key1
a     2.780273 -1.561696 aaa onetwoone
b    -0.308320 -1.382162   bb     onetwo

apply和agg功能上基本是相近的，但是多个函数的时候还是agg比较方便。

apply本身的自由度很高，如果分组之后不做聚合操作紧紧是一些观察的时候，apply就有用武之地了。

print grouped.apply(lambda x: x.describe())

        data1   data2

key1             

a  count 3.000000 3.000000

   mean -0.887893 -1.042878

   std  0.777515 1.551220

   min  -1.429440 -2.277311

   25%  -1.333350 -1.913495

   50%  -1.237260 -1.549679

   75%  -0.617119 -0.425661

   max  0.003021 0.698357

b  count 2.000000 2.000000

   mean -0.078983 0.106752

   std  0.723929 0.064191

   min  -0.590879 0.061362

   25%  -0.334931 0.084057

   50%  -0.078983 0.106752

   75%  0.176964 0.129447

   max  0.432912 0.152142

此外apply还能改变返回数据的维度。

http://pandas.pydata.org/pandas-docs/stable/groupby.html

此外还有透视表pivot_table ，交叉表crosstab ，但是我没用过。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

pandas数据分组和聚合操作方法

<Python for Data Analysis> GroupBy 分组运算:split-apply-combine(拆分-应用-合并) DataFrame可以在其行(axis=0)或列(axis=1)上进行分组.然后,将一个函数应用到各个分组并产生新值.最后,所有这些函数的执行结果会被合并到最终的结果对象中去. GroupBy的size方法可以返回一个含有分组大小的Series. 对分组进行迭代 for (k1,k2), group in df.groupby(['key1','key2'
Python Pandas分组聚合的实现方法

Pycharm 鼠标移动到函数上,CTRL+Q可以快速查看文档,CTR+P可以看基本的参数. apply(),applymap()和map() apply()和applymap()是DataFrame的函数,map()是Series的函数. apply()的操作对象是DataFrame的一行或者一列数据,applymap()是DataFrame的每一个元素.map()也是Series中的每一个元素. apply()对dataframe的内容进行批量处理, 这样要比循环来得快.如df.apply(
python pandas分组聚合详细

目录 python pandas分组聚合 1.环境 2.分组 3.序列分组 4.多列分组 5.索引分组 7.聚合 8.单函数对多列 9.多函数对多列 python pandas分组聚合 1.环境 python3.9 win10 64bit pandas==1.2.1 groupby方法是pandas中的分组方法,对数据框采用groupby方法后,返回的是DataFrameGroupBy对象,一般分组操作后会进行聚合操作. 2.分组 import pandas as pd import numpy
Python pandas自定义函数的使用方法示例

本文实例讲述了Python pandas自定义函数的使用方法.分享给大家供大家参考,具体如下: 自定义函数的使用 import numpy as np import pandas as pd # todo 将自定义的函数作用到dataframe的行和列或者Serise的行上 ser1 = pd.Series(np.random.randint(-10,10,5),index=list('abcde')) df1 = pd.DataFrame(np.random.randint(-10,10,(
pandas分组聚合详解

一前言 pandas学到分组迭代,那么基础的pandas系列就学的差不多了,自我感觉不错,知识追寻者用pandas处理过一些数据,蛮好用的: 知识追寻者(Inheriting the spirit of open source, Spreading technology knowledge;) 二分组 2.1 数据准备 # -*- coding: utf-8 -*- import pandas as pd import numpy as np frame = pd.DataFrame({ '
python:pandas合并csv文件的方法(图书数据集成)

数据集成:将不同表的数据通过主键进行连接起来,方便对数据进行整体的分析. 两张表:ReaderInformation.csv,ReaderRentRecode.csv ReaderInformation.csv: ReaderRentRecode.csv: pandas读取csv文件,并进行csv文件合并处理: # -*- coding:utf-8 -*- import csv as csv import numpy as np # ------------- # csv读取表格数据 # ---
对python pandas 画移动平均线的方法详解

数据文件 66001_.txt 内容格式: date,jz0,jz1,jz2,jz3,jz4,jz5 2012-12-28,0.9326,0.8835,1.0289,1.0027,1.1067,1.0023 2012-12-31,0.9435,0.8945,1.0435,1.0031,1.1229,1.0027 2013-01-04,0.9403,0.8898,1.0385,1.0032,1.1183,1.0030 ... ... pd_roll_mean1.py # -*- coding: u
对python pandas读取剪贴板内容的方法详解

我使用的Python3.5,32版本win764位系统,pandas0.19版本,使用df=pd.read_clipboard()的时候读不到数据,百度查找解决方法,找到了一个比较靠谱的打开site-packages\pandas\io\clipboard.py 在 text = clipboard_get() 后面一行加入这句: text = text.decode('UTF-8') 保存,然后就可以使用了 df=pd.read_clipboard() #变成正常的了下次可以在其他地方复
python pandas修改列属性的方法详解

使用astype如下: df[[column]] = df[[column]].astype(type) type即int.float等类型. 示例: import pandas as pd data = pd.DataFrame([[1, "2"], [2, "2"]]) data.columns = ["one", "two"] print(data) # 当前类型 print("----\n修改前类型:&quo
Python Pandas找到缺失值的位置方法

问题描述: python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺失数据的位置. 首先对于存在缺失值的数据,如下所示 import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(10,6)) # Make a few areas have NaN values df.
Python Pandas多种添加行列数据方法总结

目录前言 1. 增加列数据 2. 增加行数据补充:pandas根据现有列新添加一列总结前言发现自己学习python 的各种库老是容易忘记,所有想利用这个平台,记录和分享一下学习时候的知识点,以后也能及时的复习,最近学习pandas,那我们来看看pandas添加数据的一些方法创建一个dataframe 1. 增加列数据为dataframe增加一列新数据,需要确保增加列的长度与原数据保持一致如果是增加一列相同数据可以直接输入 df['level'] = 1 插入的数据是需要通过源数据

Python Pandas分组聚合的实现方法

相关推荐

随机推荐