一文详解Python如何优雅地对数据进行分组

2025-02-18 07:57:38

假设我们有这样一种数据：

data = [
    ("apple", 30), ("apple", 35),
    ("apple", 32), ("pear", 60),
    ("pear", 32), ("pear", 60),
    ("banana", 102), ("banana", 104)
]

# 我们希望变成如下格式
"""
[('apple', [30, 35, 32]), 
 ('pear', [60, 32, 60]), 
 ('banana', [102, 104])]
"""

如果是你的话，你会怎么做呢？很容易想到的一种解决方案是构造一个字典：

data = [
    ("apple", 30), ("apple", 35),
    ("apple", 32), ("pear", 60),
    ("pear", 32), ("pear", 60),
    ("banana", 102), ("banana", 104)
]

data_dict = {}
for name, count in data:
    if name not in data_dict:
        data_dict[name] = []
    data_dict[name].append(count)
print(data_dict)
"""
{'apple': [30, 35, 32], 
 'pear': [60, 32, 60], 
 'banana': [102, 104]}
"""
print(list(data_dict.items()))
"""
[('apple', [30, 35, 32]), 
 ('pear', [60, 32, 60]), 
 ('banana', [102, 104])]
"""

这种方案完全没有问题，不过我们还可以写的更优雅一些，也就是使用字典的 setdefault 方法：

data = [
    ("apple", 30), ("apple", 35),
    ("apple", 32), ("pear", 60),
    ("pear", 32), ("pear", 60),
    ("banana", 102), ("banana", 104)
]

data_dict = {}
for name, count in data:
    # setdefault(k, v) 含义如下
    # 当 k 不存在时，将 k: v 设置在字典中，并返回 v
    # 当 k 存在时，直接返回 k 对应值
    data_dict.setdefault(name, []).append(count)

print(list(data_dict.items()))
"""
[('apple', [30, 35, 32]), 
 ('pear', [60, 32, 60]), 
 ('banana', [102, 104])]
"""

setdefault 是一个非常方便的方法，但是使用频率却不怎么高，或者说该方法不太让人喜欢。主要是每次调用都要给一个初始值，比如代码中的空列表 []。另外这里的初始值可以任意，如果你希望添加的时候还能实现去重效果，那么就将空列表换成空集合即可。

或者我们还可以使用 defaultdict，它位于 collections 模块中。

from collections import defaultdict

data = [
    ("apple", 30), ("apple", 35),
    ("apple", 32), ("pear", 60),
    ("pear", 32), ("pear", 60),
    ("banana", 102), ("banana", 104)
]

# 里面接收一个 callable
# 当访问的 k 不存在时，返回 callable 调用之后的值
data_dict1 = defaultdict(list)
for name, count in data:
    data_dict1[name].append(count)

print(list(data_dict1.items()))
"""
[('apple', [30, 35, 32]), 
 ('pear', [60, 32, 60]), 
 ('banana', [102, 104])]
"""

# 也可以指定为 set
data_dict2 = defaultdict(set)
for name, count in data:
    data_dict2[name].add(count)

print(list(data_dict2.items()))
"""
[('apple', {32, 35, 30}), 
 ('pear', {32, 60}), 
 ('banana', {104, 102})]
"""

总的来说，defaultdict 和字典的 setdefault 方法非常类似，我们使用 setdefault 即可。

当然啦，关于分组，还有一种特殊情况，就是词频统计。假设我们想统计可迭代对象中，每个元素出现的次数该怎么做呢？

data = ["apple", "apple", "apple",
        "pear", "pear", "pear",
        "banana", "banana"]

data_dict = {}
for item in data:
    # 此处不能使用 setdefault，因为它是函数
    # .setdefault(item, 0) += 1 是不符合语法规则的
    if item not in data_dict:
        data_dict[item] = 0
    data_dict[item] += 1

print(data_dict)
"""
{'apple': 3, 'pear': 3, 'banana': 2}
"""

# 或者使用 defaultdict
from collections import defaultdict
data_dict = defaultdict(int)
for item in data:
    data_dict[item] += 1
print(data_dict)
"""
defaultdict(<class 'int'>, 
            {'apple': 3, 'pear': 3, 'banana': 2})
"""

然而说到词频统计，我们还可以使用 collections 下的 Counter 类。

from collections import Counter

data = ["apple", "apple", "apple",
        "pear", "pear", "pear",
        "banana", "banana"]

data_dict = Counter(data)
# 直接搞定，Counter 已经包含了我们之前的逻辑
print(data_dict)
"""
Counter({'apple': 3, 'pear': 3, 'banana': 2})
"""
# Counter 继承 dict，除了支持字典操作之外
# 还提供了很多其它操作，其中一个就是 most_common
# 用于选择出现频率最高的几个元素
print(data_dict.most_common(2))
"""
[('apple', 3), ('pear', 3)]
"""

还是很简单的。

到此这篇关于一文详解Python如何优雅地对数据进行分组的文章就介绍到这了,更多相关Python数据分组内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python数据分析中Groupby用法之通过字典或Series进行分组的实例

在数据分析中有时候需要自己定义分组规则这里简单介绍一下用一个字典实现分组 people=DataFrame( np.random.randn(5,5), columns=['a','b','c','d','e'], index=['Joe','Steve','Wes','Jim','Travis'] ) mapping={'a':'red','b':'red','c':'blue','d':'blue','e':'red','f':'orange'} by_column=people.grou
一个Python优雅的数据分块方法详解

目录 1.背景 2.islice 2.1示例 2.2只指定步长 3.iter 3.1常规使用 3.2进阶使用 4.islice 和 iter 组合使用 5.总结 1.背景看到这个标题你可能想一个分块能有什么难度?还值得细说吗,最近确实遇到一个有意思的分块函数,写法比较巧妙优雅,所以写一个分享. 日前在做需求过程中有一个对大量数据分块处理的场景,具体来说就是几十万量级的数据,分批处理,每次处理100个.这时就需要一个分块功能的代码,刚好项目的工具库中就有一个分块的函数.拿过函数来用,发现还挺好用
python DataFrame数据分组统计groupby()函数的使用

目录 groupby()函数 1. groupby基本用法 1.1 一级分类_分组求和 1.2 二级分类_分组求和 1.3 对DataFrameGroupBy对象列名索引(对指定列统计计算) 2. 对分组数据进行迭代 2.1 对一级分类的DataFrameGroupBy对象进行遍历 2.2 对二级分类的DataFrameGroupBy对象进行遍历 3. agg()函数 3.1一般写法_对目标数据使用同一聚合函数 3.2 对不同列使用不同聚合函数 3.3 自定义函数写法 4. 通过字典和 Se
python Pandas中数据的合并与分组聚合

目录一.字符串离散化示例二.数据合并 2.1 join 2.2 merge 三.数据的分组和聚合四.索引总结一.字符串离散化示例对于一组电影数据,我们希望统计电影分类情况,应该如何处理数据?(每一个电影都有很多个分类) 思路:首先构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1 代码: # coding=utf-8 import pandas as pd from matplotlib import pyplot as plt import numpy as
Python使用arrow库优雅地处理时间数据详解

前言大家应该都知道在很多时候我们不得不和时间打交道,但在Python标准库中处理时间的模块其实设计的不是很友好,为什么我会这么说?因为我相信大部分人几乎每次在处理时间数据时一而再,再而三的去查文档,比如时间和文本格式互转,时间增减等看起来非常基本的操作,在Python中处理起来并不简单. 最要命的是,在Python标准库中居然有两个模块处理时间,一个叫time,另外一个叫datetime,里面提供了类似的方法但是两个完全不是一回事.到这还没完,标准库里还有一个叫calendar的模块,也是用来
Python Pandas实现数据分组求平均值并填充nan的示例

Python实现按某一列关键字分组,并计算各列的平均值,并用该值填充该分类该列的nan值. DataFrame数据格式 fillna方式实现 groupby方式实现 DataFrame数据格式以下是数据存储形式: fillna方式实现 1.按照industryName1列,筛选出业绩 2.筛选出相同行业的Series 3.计算平均值mean,采用fillna函数填充 4.append到新DataFrame中 5.循环遍历行业名称,完成2,3,4步骤 factordatafillna = pd.
一文详解Python如何优雅地对数据进行分组

假设我们有这样一种数据: data = [ ("apple", 30), ("apple", 35), ("apple", 32), ("pear", 60), ("pear", 32), ("pear", 60), ("banana", 102), ("banana", 104) ] # 我们希望变成如下格式 &q
一文详解Python中的重试机制

目录介绍 1. 最基本的重试 2. 设置停止基本条件 3. 设置何时进行重试 4. 重试后错误重新抛出 5. 设置回调函数介绍为了避免由于一些网络或等其他不可控因素,而引起的功能性问题.比如在发送请求时,会因为网络不稳定,往往会有请求超时的问题. 这种情况下,我们通常会在代码中加入重试的代码.重试的代码本身不难实现,但如何写得优雅.易用,是我们要考虑的问题. 这里要给大家介绍的是一个第三方库 - Tenacity (标题中的重试机制并并不准确,它不是 Python 的内置模块,因此并不能称
一文详解Python中生成器的原理与使用

目录什么是生成器迭代器和生成器的区别创建方式生成器表达式基本语法生成器函数 yield关键字 yield和return yield的使用方法生成器函数的基本使用 send的使用可迭代对象的优化总结我们学习完推导式之后发现,推导式就是在容器中使用一个for循环而已,为什么没有元组推导式? 原因就是“元组推导式”的名字不是这样的,而是叫做生成器表达式. 什么是生成器生成器表达式本质上就是一个迭代器,是定义迭代器的一种方式,是允许自定义逻辑的迭代器.生成器使用generator表
一文详解Python中PO模式的设计与实现

目录什么是PO模式 PO 三层模式 PO 设计模式的优点将改写的脚本转为PO设计模式构建基础的 BasePage 层构建首页的 Page 层(HomePage) 构建登录页的 Page 层(LoginPage) 构建首页 - 订单 - 支付流程的 Page 层(OrderPage) PO 设计模式下测试Case的改造在使用 Python 进行编码的时候,会使用自身自带的编码设计格式,比如说最常见的单例模式,稍微抽象一些的抽象工厂模式等等… 在利用 Python 做自动化测试的时候,
详解Python如何优雅地解析命令行

目录 1. 手动解析 2. getopt模块总结如何优雅地解析命令行选项随着我们编程经验的增长,对命令行的熟悉程度日渐加深,想来很多人会渐渐地体会到使用命令行带来的高效率. 自然而然地,我们自己写的很多程序(或者干脆就是脚本),也希望能够像原生命令和其他程序一样,通过运行时输入的参数就可以设定.改变程序的行为:而不必一层层找到相应的配置文件,然后还要定位到相应内容.修改.保存.退出…… 想想就很麻烦好吗 1. 手动解析所以让我们开始解析命令行参数吧~ 在以前关于模块的文章中我们提到过sy
一文详解Python中复合语句的用法

目录 Python复合语句 1.if 语句 2.while 语句 3.for 语句 4.try 语句 5.with 语句 6.match 语句 Python复合语句复合语句是包含其它语句(语句组)的语句:它们会以某种方式影响或控制所包含其它语句的执行.通常,复合语句会跨越多行,虽然在某些简单形式下整个复合语句也可能包含于一行之内. if.while和for语句用来实现传统的控制流程构造.try语句为一组语句指定异常处理和/和清理代码,而with语句允许在一个代码块周围执行初始化和终结化代码.函
一文详解Python中的Map,Filter和Reduce函数

目录 1. 引言 2. 高阶函数 3. Lambda表达式 4. Map函数 5. Filter函数 6. Reduce函数 7. 总结 1. 引言本文重点介绍Python中的三个特殊函数Map,Filter和Reduce,以及如何使用它们进行代码编程.在开始介绍之前,我们先来理解两个简单的概念高阶函数和Lambda函数. 2. 高阶函数把函数作为参数传入,这样的函数称为高阶函数,函数式编程就是指这种高度抽象的编程范式. 举例如下: def higher(your_function, som
一文详解Python灰色预测模型实现示例

目录前言一.模型理论特点二.模型场景 1.预测种类 2.适用条件三.建模流程 1.级比校验 3.系数求解 4.残差检验与级比偏差检验四.Python实例实现总结前言博主参与过大大小小十次数学建模比赛,也获得了不少建模奖项.对于一些小批量样本数据去做预测或者是评估其规律性的话,比较适合的模型一般都是选择灰色预测模型.该模型解释性强而且易于理解,建模手段也比较简单.在一些不确定是否存在相关标量或者是存在位置特征的时候,用灰色预测模型尤为明显,牵扯太多变量时候可以以量曾量减的方式显现
一文详解Python中实现单例模式的几种常见方式

目录 Python 中实现单例模式的几种常见方式元类(Metaclass): 装饰器(Decorator): 模块(Module): new 方法: Python 中实现单例模式的几种常见方式元类(Metaclass): class SingletonType(type): """ 单例元类.用于将普通类转换为单例类. """ _instances = {} # 存储单例实例的字典 def __call__(cls, *args, **kwa
一文详解Python中logging模块的用法

目录一.低配logging 1.v1 2.v2 3.v3 二.高配logging 1.配置日志文件 2.使用日志三.Django日志配置文件一.低配logging 日志总共分为以下五个级别,这个五个级别自下而上进行匹配 debug-->info-->warning-->error-->critical,默认最低级别为warning级别. 1.v1 import logging logging.debug('调试信息') logging.info('正常信息') logging

一文详解Python如何优雅地对数据进行分组

相关推荐

随机推荐