python中pandas对多列进行分组统计的实现

2025-03-02 19:48:31

使用groupby([ ]).size()统计的结果，值相同的字段值会不显示

如上图所示，第一个空着的行是982499 7 3388 1，因为此行与前面一行的这两个字段值是一样的，所以不显示。第二个空着的行是390192 22 4278 1，因为此行与前面一行的第一个字段值是一样的，所以不显示。这样的展示方式更直观，但对于刚用的人，可能会让其以为是缺失值。

如果还不明白可以看下面的全部数据及操作。

import pandas as pd
res6 = pd.read_csv('test.csv')
res6.shape

(12, 3)

res6.columns

Index(['user_id', 'cate', 'shop_id'], dtype='object')

res6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
user_id    12 non-null int64
cate       12 non-null int64
shop_id    12 non-null int64
dtypes: int64(3)
memory usage: 368.0 bytes

res6.describe()

	user_id	cate	shop_id
count	1.200000e+01	12.000000	12.000000
mean	6.468688e+05	10.666667	3594.000000
std	3.988181e+05	6.665151	373.271775
min	2.421410e+05	7.000000	3388.000000
25%	3.901920e+05	7.000000	3388.000000
50%	4.938730e+05	7.000000	3388.000000
75%	9.824990e+05	10.250000	3586.250000
max	1.558165e+06	23.000000	4278.000000

res6

	user_id	cate	shop_id
0	390192	20	4178
1	390192	23	4179
2	390192	22	4278
3	1021819	7	3388
4	242141	7	3388
5	283284	7	3388
6	1558165	7	3388
7	533696	7	3388
8	982499	7	3388
9	493873	7	3388
10	493873	7	3388
11	982499	7	3389

res6['user_id'].value_counts()

390192     3
982499     2
493873     2
242141     1
1021819    1
533696     1
1558165    1
283284     1
Name: user_id, dtype: int64

res6.groupby(['user_id']).size().sort_values(ascending=False)

user_id
390192     3
982499     2
493873     2
1558165    1
1021819    1
533696     1
283284     1
242141     1
dtype: int64

res6.groupby(['user_id', 'cate']).size().sort_values(ascending=False)

user_id  cate
982499   7       2
493873   7       2
1558165  7       1
1021819  7       1
533696   7       1
390192   23      1
         22      1
         20      1
283284   7       1
242141   7       1
dtype: int64

res6_test = res6.groupby(['user_id', 'cate', 'shop_id']).size().sort_values(ascending=False)
res6_test

user_id  cate  shop_id
493873   7     3388       2
1558165  7     3388       1
1021819  7     3388       1
982499   7     3389       1
               3388       1
533696   7     3388       1
390192   23    4179       1
         22    4278       1
         20    4178       1
283284   7     3388       1
242141   7     3388       1
dtype: int64

到此这篇关于python中pandas对多列进行分组统计的实现的文章就介绍到这了,更多相关pandas多列分组统计内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

pandas数据分组groupby()和统计函数agg()的使用

数据分组使用 groupby() 方法进行分组 group.size()查看分组后每组的数量 group.groups 查看分组情况 group.get_group('名字') 根据分组后的名字选择分组数据准备数据 # 一个Series其实就是一条数据,Series方法的第一个参数是data,第二个参数是index(索引),如果没有传值会使用默认值(0-N) # index参数是我们自定义的索引值,注意:参数值的个数一定要相同. # 在创建Series时数据并不一定要是列表,也可以将一个字典
详解python pandas 分组统计的方法

首先,看看本文所面向的应用场景:我们有一个数据集df,现在想统计数据中某一列每个元素的出现次数.这个在我们前面文章<如何画直方图>中已经介绍了方法,利用value_counts()就可以实现(具体回看文章) 但是,现在,我们考虑另外一个场景,我们假如要想统计其中两列元素出现次数呢?举个栗子: 在df数据集中,如果我们想统计A.B两列的元素的出现情况,也就是说,得到如下表. 从上面的最后一列可以看到,在A.B两列中,1 2 出现了2次,1 4 出现1次 ,1 6出现1次,2 3出现了2次, 2
python中pandas对多列进行分组统计的实现

使用groupby([ ]).size()统计的结果,值相同的字段值会不显示如上图所示,第一个空着的行是982499 7 3388 1,因为此行与前面一行的这两个字段值是一样的,所以不显示.第二个空着的行是390192 22 4278 1,因为此行与前面一行的第一个字段值是一样的,所以不显示.这样的展示方式更直观,但对于刚用的人,可能会让其以为是缺失值. 如果还不明白可以看下面的全部数据及操作. import pandas as pd res6 = pd.read_csv('test.csv'
python中pandas.DataFrame对行与列求和及添加新行与列示例

本文介绍的是python中pandas.DataFrame对行与列求和及添加新行与列的相关资料,下面话不多说,来看看详细的介绍吧. 方法如下: 导入模块: from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df = DataFrame(np.random.randn(4, 5), columns=['A', 'B', 'C', 'D', 'E']) DataFrame数据预览: A
Python中pandas dataframe删除一行或一列:drop函数详解

用法:DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False) 在这里默认:axis=0,指删除index,因此删除columns时要指定axis=1: inplace=False,默认该删除操作不改变原数据,而是返回一个执行删除操作后的新dataframe: inplace=True,则会直接在原数据上进行删除操作,删除后就回不来了. 例子: >>>df = pd.DataFrame(np.a
python中pandas库中DataFrame对行和列的操作使用方法示例

用pandas中的DataFrame时选取行或列: import numpy as np import pandas as pd from pandas import Sereis, DataFrame ser = Series(np.arange(3.)) data = DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz')) data['w'] #选择表格中的'w'列,使用类字典属性,返回的是S
python中pandas读取csv文件时如何省去csv.reader()操作指定列步骤

优点: 方便,有专门支持读取csv文件的pd.read_csv()函数. 将csv转换成二维列表形式支持通过列名查找特定列. 相比csv库,事半功倍 1.读取csv文件 import pandas as pd file="c:\data\test.csv" csvPD=pd.read_csv(file) df = pd.read_csv('data.csv', encoding='gbk') #指定编码 read_csv()方法参数介绍 filepath_or_buf
python中pandas操作apply返回多列的实现

目录 apply 返回多列生成新列多行操作举例我们可以用DataFrame的apply函数实现对多列,多行的操作. 需要记住的是,参数axis设为1是对列进行操作,参数axis设为0是对行操作.默认是对行操作. apply 返回多列 # height = [70, 90, 100, 120, 140, 160, 180, 200,220,240, 260] # 长度为 11 # df.shape (1000, 11) # 对df的每一行的每一个元素操作,然后再返回多列 #-------
python中pandas.DataFrame排除特定行方法示例

前言大家在使用Python进行数据分析时,经常要使用到的一个数据结构就是pandas的DataFrame,关于python中pandas.DataFrame的基本操作,大家可以查看这篇文章. pandas.DataFrame排除特定行如果我们想要像Excel的筛选那样,只要其中的一行或某几行,可以使用isin()方法,将需要的行的值以列表方式传入,还可以传入字典,指定列进行筛选. 但是如果我们只想要所有内容中不包含特定行的内容,却并没有一个isnotin()方法.我今天的工作就遇到了这样的需
python中pandas.DataFrame的简单操作方法（创建、索引、增添与删除）

前言最近在网上搜了许多关于pandas.DataFrame的操作说明,都是一些基础的操作,但是这些操作组合起来还是比较费时间去正确操作DataFrame,花了我挺长时间去调整BUG的.我在这里做一些总结,方便你我他.感兴趣的朋友们一起来看看吧. 一.创建DataFrame的简单操作: 1.根据字典创造: In [1]: import pandas as pd In [3]: aa={'one':[1,2,3],'two':[2,3,4],'three':[3,4,5]} In [4]: bb=
对Python中DataFrame选择某列值为XX的行实例详解

如下所示: #-*-coding:utf8-*- import pandas as pd all_data=pd.read_csv("E:/协和问答系统/SenLiu/熵测试数据.csv") #获取某一列值为xx的行的候选列数据 print(all_data) feature_data=all_data.iloc[:,[0,-1]][all_data[all_data.T.index[0]]=='青年'] print(feature_data) 实验结果如下: "C:\Pro
Python 中pandas索引切片读取数据缺失数据处理问题

引入 numpy已经能够帮助我们处理数据,能够结合matplotlib解决我们数据分析的问题,那么pandas学习的目的在什么地方呢? numpy能够帮我们处理处理数值型数据,但是这还不够很多时候,我们的数据除了数值之外,还有字符串,还有时间序列等比如:我们通过爬虫获取到了存储在数据库中的数据比如:之前youtube的例子中除了数值之外还有国家的信息,视频的分类(tag)信息,标题信息等所以,numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基于numpy),还能够帮助我

python中pandas对多列进行分组统计的实现

相关推荐

随机推荐