python基础篇之pandas常用基本函数汇总

目录
  • 前言
  • 1、汇总函数
  • 2、特征统计函数
  • 3、唯一值函数
  • 4、替换函数
  • 总结

前言

这篇主要整理pandas常用的基本函数,主要分为五部分:

  • 汇总函数
  • 特征统计函数
  • 唯一值函数
  • 替换函数
  • 排序函数

1、汇总函数

常用的主要是4个:

  • tail(): 返回表或序列的后n行
  • head(): 返回表或序列的前n行
  • info(): 返回表的信息概况
  • describe(): 返回表中数值列对应的主要统计量

n默认为5

df.describe()

#运行截图
	Height	Weight
count	183.000000	189.000000
mean	163.218033	55.015873
std	8.608879	12.824294
min	145.400000	34.000000
25%	157.150000	46.000000
50%	161.900000	51.000000
75%	167.500000	65.000000
max	193.900000	89.000000

2、特征统计函数

在Series和DataFrame上定义了许多统计函数,最常见的是:

  • sum
  • mean (均值)
  • median (中位数)
  • var (方差)
  • std (标准差)
  • max
  • min

用法示例

df_demo = df[['Height', 'Weight']]
df_demo.mean()

聚合函数

  • quantile (返回分位数)
  • count (返回非缺失值个数)
  • idxmax (最大值对应的索引)

聚合函数,有一个公共参数axis,axis=0代表逐列聚合,axis=1表示逐行聚合

df_demo.mean(axis=1).head()

3、唯一值函数

唯一值函数常用的四个函数:

  • unique() : 得到唯一值组成的列表->统计出指定列唯一存在的值有哪些
  • nunique() :唯一值的个数->统计出指定列唯一存在的值总共有多少个
  • value_counts() : 得到唯一值和其对应出现的频数
  • drop_duplicates() : 去重
  • duplicated()

drop_duplicates()基本用法

  • 关键参数keep
  • first : 保留第一次出现的重复行,删除后面的重复行
  • last : 删除重复项,除了最后一次出现
  • False:把所有重复组合所在的行剔除。

需要指定列

代码:

#原本的数据样例
df_demo = df[['Gender','Transfer','Name']]
df_demo
    Gender    Transfer    Name
0    Female    N    Gaopeng Yang
1    Male    N    Changqiang You
2    Male    N    Mei Sun
3    Female    N    Xiaojuan Sun
4    Male    N    Gaojuan You
...    ...    ...    ...
195    Female    N    Xiaojuan Sun
196    Female    N    Li Zhao
197    Female    N    Chengqiang Chu
198    Male    N    Chengmei Shen
199    Male    N    Chunpeng Lv
200 rows × 3 columns
#现给Gender,Transfer两列去重
df_demo.drop_duplicates(['Gender','Transfer'])
    Gender    Transfer    Name
0    Female    N    Gaopeng Yang
1    Male    N    Changqiang You
12    Female    NaN    Peng You
21    Male    NaN    Xiaopeng Shen
36    Male    Y    Xiaojuan Qin
43    Female    Y    Gaoli Feng

由此可见,使用了first参数,保留第一次出现的重复行,删除后面的重复行

在未指定参数的情况下,keep默认first;

指定last

案例如下:

df_demo.drop_duplicates(['Gender', 'Transfer'], keep='last')
    Gender    Transfer    Name
147    Male    NaN    Juan You
150    Male    Y    Chengpeng You
169    Female    Y    Chengquan Qin
194    Female    NaN    Yanmei Qian
197    Female    N    Chengqiang Chu
199    Male    N    Chunpeng Lv

last:删除所有的重复行,只保留出现的最后一个

drop_duplicates() & duplicated()的区别

duplicated和drop_duplicates的功能类似,但前者返回了是否为唯一值的布尔列表,其keep参数与后者一致。其返回的序列,把重复元素设为True,否则为False。 drop_duplicates等价于把duplicated为True的对应行剔除。

4、替换函数

替换函数有三类:

  • 映射函数:replace()…
  • 逻辑函数:(1)where (2)mask
  • 数值替换

replace的用法

#原本的数据
df_demo = df[['Gender','Transfer','Name']]
df_demo
    Gender    Transfer    Name
0    Female    N    Gaopeng Yang
1    Male    N    Changqiang You
2    Male    N    Mei Sun
3    Female    N    Xiaojuan Sun
4    Male    N    Gaojuan You
...    ...    ...    ...
195    Female    N    Xiaojuan Sun
196    Female    N    Li Zhao
197    Female    N    Chengqiang Chu
198    Male    N    Chengmei Shen
199    Male    N    Chunpeng Lv
200 rows × 3 columns
#替换Gender,女替换为0,男替换为1
df['Gender'].replace({'Female':0, 'Male':1}).head()
0    0
1    1
2    1
3    0
4    1
Name: Gender, dtype: int64

逻辑替换

逻辑替换包括了where和mask,这两个函数是完全对称的:where函数在传入条件为False的对应行进行替换,而mask在传入条件为True的对应行进行替换,当不指定替换值时,替换为缺失值(NAN)

s = pd.Series([-1, 1.2345, 100, -50])
s.where(s<0)
0    -1.0
1     NaN
2     NaN
3   -50.0
dtype: float64
s.where(s<0, 100)
0     -1.0
1    100.0
2    100.0
3    -50.0
dtype: float64
s.mask(s<0)
0         NaN
1      1.2345
2    100.0000
3         NaN
dtype: float64

总结

到此这篇关于python基础篇之pandas常用基本函数汇总的文章就介绍到这了,更多相关python pandas常用函数内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Pandas中常用的七个时间戳处理函数使用总结

    目录 1.查找特定日期的某一天的名称 2.执行算术计算 3.使用时区信息来操作转换日期时间 4.使用日期时间戳 5.创建日期系列 6.操作日期序列 7.使用时间戳数据对数据进行切片 在零售.经济和金融等行业,数据总是由于货币和销售而不断变化,生成的所有数据都高度依赖于时间.如果这些数据没有时间戳或标记,实际上很难管理所有收集的数据.Python 程序允许我们使用 NumPy timedelta64 和 datetime64 来操作和检索时间序列数据.sklern库中也提供时间序列功能,但 Pan

  • Python pandas常用函数详解

    本文研究的主要是pandas常用函数,具体介绍如下. 1 import语句 import pandas as pd import numpy as np import matplotlib.pyplot as plt import datetime import re 2 文件读取 df = pd.read_csv(path='file.csv') 参数:header=None 用默认列名,0,1,2,3... names=['A', 'B', 'C'...] 自定义列名 index_col='

  • Python Pandas常用函数方法总结

    初衷 NumPy.Pandas.Matplotlib.SciPy 等可以说是最最最常用的 Python 库了.我们在使用 Python 库的时候,通常会遇到两种情况.以 Pandas 举例. 我想对 Pandas 数据结构的数据实现某种操作,但是我不知道或者说在我的印象里似乎已经不记得是否有这样的函数方法,如果有,又该用哪个方法呢? 我想实现某种数据操作,我记得我用过或者见过某个函数可以实现这个功能,但是我死活想不起来那个函数叫啥了.或者,我想起来了哪个函数可以实现这个功能,但是我想知道是否有更

  • Pandas常用的读取和保存数据的函数使用(csv,mysql,json,excel)

    pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具.Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis).pandas提供了大量能使我们快速便捷地处理数据的函数和方法.它是使Python成为强大而高效的数据分析环境的重要因素之一.pandas的IO工具支持非常多的数据输入输出方式.包括csv.json.Excel.数据库等. 本

  • python基础篇之pandas常用基本函数汇总

    目录 前言 1.汇总函数 2.特征统计函数 3.唯一值函数 4.替换函数 总结 前言 这篇主要整理pandas常用的基本函数,主要分为五部分: 汇总函数 特征统计函数 唯一值函数 替换函数 排序函数 1.汇总函数 常用的主要是4个: tail(): 返回表或序列的后n行 head(): 返回表或序列的前n行 info(): 返回表的信息概况 describe(): 返回表中数值列对应的主要统计量 n默认为5 df.describe() #运行截图 Height Weight count 183.

  • Python基础篇之字符串的最全常用操作方法汇总

    目录 前言: 字符串的最全常用操作方法 string.capitalize() ​​​​​string.upper() ​​string.lower() string.swapcase() ​​​​​​string.title() ​​​​string.center() string.expandtabs(tabsize = 8) len(string) string.endswith(obj, beg=0, end=len(string)) string.startswith(obj, beg

  • Python基础篇之初识Python必看攻略

    Python简介 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为ABC语言的一种继承. Python和其他语言的对比: C 和 Python.Java.C#等 C语言: 代码编译得到 机器码 ,机器码在处理器上直接执行,每一条指令控制CPU工作 其他语言: 代码编译得到 字节码 ,虚拟机执行字节码并转换成机器码再后在处理器上执行 Python 和 C  Python这门语

  • Python进阶篇之正则表达式常用语法总结

    目录 正则表达式概述 1.点-匹配所有字符 2.星号-重复匹配任意次 3.加号-重复匹配多次 4. 花括号-匹配指定次数 5. 问号-贪婪模式和非贪婪模式 6.方括号-匹配几个字符之一 7.起始位置和单行.多行模式 8.括号-组选择 9.反斜杠-对元字符的转义 10.修饰符-可选标志 11.使用正则表达式切割字符串 正则表达式概述 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模

  • Python基础之字符串操作常用函数集合

    Python字符串常用功能汇总 1.字符串的定义 #定义空字符串>>> name=''#定义非空字符串 >>> name="luoahong"#通过下标访问 >>> name[1] 'u'#不能修改字符串的值,否则会报错 >>> name[2] = "3" Traceback (most recent call last): File "<stdin>", lin

  • docker常用命令汇总

    docker安装 1.要求:linux内核在3.10及其以上 内核版本查看: uname -r 内核升级: yun update 2.docker安装 yum install docker 3.docker版本查看 docker -v 4.docker启动 systemctl start docker 5.docker停止 systemctl stop docker 6.设置开机启动docker systemctl enable docker docker卸载 查看软件安装 rpm -qa |g

  • golang 常用定时任务汇总

    目录 前言 cronexpr库 定时语法介绍 常用定时 定时代码 结语 前言 项目中经常有定时任务的需求,一般都是利用linux的cron命令,定时执行脚本,无论从管理上来说还是从开发上来说都不是最好的方案,要是能在项目里直接开发定时任务,就比较完美了. golang利用goroutine外加github.com/gorhill/cronexpr库就可实现定时任务,代码简单,原理简单. cronexpr库 定时语法介绍 该库是一个定时字符串规则解析库,同linux中的cron类似,但是可以精确到

  • Python基础之pandas数据合并

    一.concat concat函数是在pandas底下的方法,可以将数据根据不同的轴作简单的融合 pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False) axis: 需要合并链接的轴,0是行,1是列join:连接的方式 inner,或者outer 二.相同字段的表首尾相接 #现将表构成l

  • Python基础之常用库常用方法整理

    一.os __file__ 获取当前运行的.py文件所在的路径(D:\PycharmProjects\My_WEB_UI\ConfigFiles\ConfigPath.py) os.path.dirname(__file__) 上面正在运行的.py文件的上一级(D:\PycharmProjects\My_WEB_UI\ConfigFiles) os.path.join(xxx,u'ConfigFiles\elementLocation.ini') 在已获得的路径xxx上加上\ConfigFile

随机推荐