Python制作数据分析透视表的方法详解

目录
  • 1、pivot_table函数index属性
  • 2、pivot_table函数values属性
  • 3、pivot_table函数aggfunc属性
  • 4、pivot_table函数columns属性

透视表是一种可以对数据动态排布并且分类汇总的表格格式,在常用的python的数据分析非标准库pandas中体现为pivot_table模块。

pivot_table数据透视表可以灵活的定制数据分析需求进行汇总,当然在Excel办公操作中早就存在了数据透视表的工具。如今,数据透视表被应用在python语言中更是给我们带来了大大地便利。

pivot_table有四个最重要的参数index、values、columns、aggfunc,通过设置不同的参数属性从而完成不同的数据分析需求。

pivot_table是pandas非标准库下面的数据透视表模块,因此需要安装pandas非标准库。按照以往的惯例还是采用pip的方式来进行安装即可。

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/

首先,使用传统的excel读取函数read_excel将Excel文件中的数据读取出来,读取数据返回的是Dataframe格式的数据。

import pandas as pd  # 导入pandas模块

df = pd.read_excel('C:/test/data.xlsx')  # 读取Excel数据文件

print(df.tail())  # 打印部分结果

#             名称  年龄    班级   成绩  表现
# 21  Python 集中营  24  1739  111  A+
# 22  Python 集中营  25  1740  112  A+
# 23  Python 集中营  26  1741  113  A+
# 24  Python 集中营  27  1742  114  A+
# 25  Python 集中营  28  1743  115  A+

1、pivot_table函数index属性

我们通过pandas的read_excel函数已经将Excel数据文件读取并返回DataFrame数据对象。接下来通过数据透视表的方式来进行数据汇总,先来看看使用index属性是如何汇总结果的。

print(pd.pivot_table(df, index=[u'名称']))

#               年龄     成绩      班级
# 名称
# Python 集中营  15.5  102.5  1730.5

上面我们只指定了一个索引'名称'字段,从结果可以看出pivot_table函数自动将名称为'Python 集中营'的值汇总了一下,并且将其他的数字属性的字段全部计算得到了均值。

print(pd.pivot_table(df, index=[u'名称', u'表现']))

#                  年龄     成绩      班级
# 名称         表现
# Python 集中营 A+  15.5  102.5  1730.5

若是我们使用了两个或是两个以上的字段作为index的值则实际上会进行两次或两次以上的分组,这里体现为先对'名称'字段进行分组、其次再对'表现'字段进行分组。

2、pivot_table函数values属性

values属性即在使用时将指定的字段显示出来,因为有的情况下并不需要将所有的字段都展示出来往往可能用到的是其中的几个字段的值来参与运算。

print(pd.pivot_table(df, index=[u'表现'], values=[u'班级', u'成绩']))

#        成绩      班级
# 表现
# A+  102.5  1730.5

需要注意的是values属性只能用来指定具有数字属性的字段,可能为了能够更好的实现分组统计的效果吧!

3、pivot_table函数aggfunc属性

aggfunc属性则是对计算方式的设置,也可以同时设置好几种计算方式将结果展示出来。在前面的统计中并没有设置,默认则是使用均值的算法来统计汇总信息的。

下面设置两种的计算方式来统计我们之前的结果,一种还是均值、另一种则是求和的方式将两种计算模式下的结果都统计出来。

print(pd.pivot_table(df, index=[u'名称'], values=[u'年龄', u'成绩'], aggfunc=['mean', 'sum']))

#            mean         sum
#               年龄     成绩   年龄    成绩
# 名称
# Python 集中营  15.5  102.5  403  2665

可以发现汇总结果分别汇总出来了年龄和成绩的平均值、总和,效果还是相当理想的。

4、pivot_table函数columns属性

columns属性主要用来显示字符类型的字段的,若是字段对应的所在行没有值时则可以使用fill_value函数来填充默认值使数据变得完整,一般来说columns和fill_value是搭配使用的。

print(pd.pivot_table(df, index=[u'名称'], values=[u'年龄', u'成绩'], aggfunc=['mean', 'sum'], columns=[u'表现'],
                     fill_value=0))

#             mean         sum
#               年龄     成绩   年龄    成绩
# 表现            A+     A+   A+    A+
# 名称
# Python 集中营  15.5  102.5  403  2665

到此这篇关于Python制作数据分析透视表的方法详解的文章就介绍到这了,更多相关Python透视表内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python数据分析Numpy中常用相关性函数

    目录 摘要: 一.股票相关性分析 二.多项式 三.求极值的知识 摘要: NumPy中包含大量的函数,这些函数的设计初衷是能更方便地使用,掌握解这些函数,可以提升自己的工作效率.这些函数包括数组元素的选取和多项式运算等.下面通过实例进行详细了解. 前述通过对某公司股票的收盘价的分析,了解了某些Numpy的一些函数.通常实际中,某公司的股价被另外一家公司的股价紧紧跟随,它们可能是同领域的竞争对手,也可能是同一公司下的不同的子公司.可能因两家公司经营的业务类型相同,面临同样的挑战,需要相同的原料和资源

  • Python利用Pandas进行数据分析的方法详解

    目录 Series 代码 #1 代码 #2 代码#3 代码 #4 数据框 代码 #1 代码 #2 代码 #3 代码 #4 Pandas是最流行的用于数据分析的 Python 库.它提供高度优化的性能,后端源代码完全用C或Python编写. 我们可以通过以下方式分析 pandas 中的数据: 1.Series 2.数据帧 Series Series 是 pandas 中定义的一维(1-D)数组,可用于存储任何数据类型. 代码 #1 创建 Series # 创建 Series 的程序 # 导入 Pa

  • python数据分析基础知识之shape()函数的使用教程

    目录 python中shape()函数 1.shape()输入参数 2.判断数组的维度 总结 python中shape()函数 shape函数是numpy.core.fromnumeric中的函数,它的功能是读取矩阵的长度. 1.shape()输入参数 (1)参数是个数时,返回空 (2)参数是一维矩阵 (3)参数是二维矩阵 2.判断数组的维度 有几个中括号就为几维数组 shape()中有3个数. a = np.array([1,2]) #a.shape值(2,),意思是一维数组,数组中有2个元素

  • python肯德尔系数相关性数据分析示例

    目录 前言 一.定义 二.使用条件 三.计算公式及代码示例 1.Tau-a 2.Tau-b 前言 相关性分析算是很多算法以及建模的基础知识之一了,十分经典.关于许多特征关联关系以及相关趋势都可以利用相关性分析计算表达.其中常见的相关性系数就有三种:person相关系数,spearman相关系数,Kendall's tau-b等级相关系数.各有各自的用法和使用场景.当然关于这以上三种相关系数的计算算法和原理+代码我都会在我专栏里面写齐全.目前关于数学建模的专栏已经将传统的机器学习预测算法.维度算法

  • Python制作数据分析透视表的方法详解

    目录 1.pivot_table函数index属性 2.pivot_table函数values属性 3.pivot_table函数aggfunc属性 4.pivot_table函数columns属性 透视表是一种可以对数据动态排布并且分类汇总的表格格式,在常用的python的数据分析非标准库pandas中体现为pivot_table模块. pivot_table数据透视表可以灵活的定制数据分析需求进行汇总,当然在Excel办公操作中早就存在了数据透视表的工具.如今,数据透视表被应用在python

  • 一文搞懂Python中pandas透视表pivot_table功能详解

    目录 一.概述 1.1 什么是透视表? 1.2 为什么要使用pivot_table? 二.如何使用pivot_table 2.1 读取数据 2.2Index 2.3Values 2.4Aggfunc 2.5Columns 一文看懂pandas的透视表pivot_table 一.概述 1.1 什么是透视表? 透视表是一种可以对数据动态排布并且分类汇总的表格格式.或许大多数人都在Excel使用过数据透视表,也体会到它的强大功能,而在pandas中它被称作pivot_table. 1.2 为什么要使用

  • Python自动操作Excel文件的方法详解

    目录 工具 读取Excel文件内容 写入Excel文件内容 Excel文件样式调整 设置表头的位置 设置单元格的宽高 总结 工具 python3.7 Pycharm Excel xlwt&xlrd 读取Excel文件内容 当前文件夹下有一个名为“股票数据.xlsx”的Excel文件,可以按照下列代码方式来操作它. import xlrd # 使用xlrd模块的open_workbook函数打开指定Excel文件并获得Book对象(工作簿) wb = xlrd.open_workbook('股票数

  • 对python pandas 画移动平均线的方法详解

    数据文件 66001_.txt 内容格式: date,jz0,jz1,jz2,jz3,jz4,jz5 2012-12-28,0.9326,0.8835,1.0289,1.0027,1.1067,1.0023 2012-12-31,0.9435,0.8945,1.0435,1.0031,1.1229,1.0027 2013-01-04,0.9403,0.8898,1.0385,1.0032,1.1183,1.0030 ... ... pd_roll_mean1.py # -*- coding: u

  • python中Django文件上传方法详解

    Django上传文件最简单最官方的方法 1.配置media路径 在settings.py中添加如下代码: MEDIA_ROOT = os.path.join(BASE_DIR, 'media') 2.定义数据表 import os from django.db import models from django.utils.timezone import now as timezone_now def upload_to(instance, filename):     now = timezo

  • 基于Python制作炸金花游戏的过程详解

    目录 前言 一.思路 二.解决方案 三.总结 前言 <诈金花>又叫三张牌,是在全国广泛流传的一种民间多人纸牌游戏.比如JJ比赛中的诈金花(赢三张),具有独特的比牌规则.游戏过程中需要考验玩家的胆略和智慧.--<百度百科> 前几天在交流群里边,有个叫[^-^]的粉丝分享了一道扑克牌诈金花的题目,要求用Python实现,题目如下: 自己写一个程序,实现发牌.比大小判断输赢. 游戏规则: 一付扑克牌,去掉大小王,每个玩家发3张牌,最后比大小,看谁赢. 有以下几种牌: 豹子:三张一样的牌,

  • python之sqlalchemy创建表的实例详解

    python之sqlalchemy创建表的实例详解 通过sqlalchemy创建表需要三要素:引擎,基类,元素 from sqlalchemy import create_engine from sqlalchemy.ext.declarative import declarative_base from sqlalchemy import Column,Integer,String 引擎:也就是实体数据库连接 engine = create_engine('mysql+pymysql://go

  • python爬虫之BeautifulSoup 使用select方法详解

    本文介绍了python爬虫之BeautifulSoup 使用select方法详解 ,分享给大家.具体如下: <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b></

  • 对python dataframe逻辑取值的方法详解

    我遇到的一个小需求,就是希望通过判断pandas dataframe中一列的值在两个条件范围(比如下面代码中所描述的逻辑,取小于u-3ε和大于u+3ε的值),然后取出dataframe中的所有符合条件的值,这个需求的解决与普通的iloc.loc.ix的方式不同,所以我想分享一下,希望可以帮到遇到这个困难的朋友们,下面是我的实例代码: doc[~((doc.iloc[:,141:142]<(mean_value-3*std_value))&(doc.iloc[:,141:142]>(me

  • 对Python获取屏幕截图的4种方法详解

    Python获取电脑截图有多种方式,具体如下: PIL中的ImageGrab模块 windows API PyQt pyautogui PIL中的ImageGrab模块 import time import numpy as np from PIL import ImageGrab img = ImageGrab.grab(bbox=(100, 161, 1141, 610)) img = np.array(img.getdata(), np.uint8).reshape(img.size[1]

随机推荐