pandas使用函数批量处理数据(map、apply、applymap)

前言

在我们对DataFrame对象进行处理时候,下意识的会想到对DataFrame进行遍历,然后将处理后的值再填入DataFrame中,这样做比较繁琐,且处理大量数据时耗时较长。Pandas内置了一个可以对DataFrame批量进行函数处理的工具:map、apply和applymap。

提示:为方便快捷地解决问题,本文仅介绍函数的主要用法,并非全面介绍

一、pandas.Series.map()是什么?

把Series中的值进行逐一映射,带入进函数、字典或Series中得出的另一个值。

Series.map(arg, na_action=None)

参数:

  • arg:函数、字典类数据、Series;映射对应关系
  • na_action{None, ‘ignore'}:默认为None;处理NaN变量,如果为None则不处理NaN对象,如果为‘ignore'则将NaN对象当做普通对象带入规则。

返回Series

二、pandas.Series.map()用法和优点

本节主要讲述map()函数的主要用法和相比于方法的优点

1、map()用法

创建案例DataFrame

import pandas as pd
import numpy as np
import time

data = pd.DataFrame({'name':['Verne Raymond','Chapman Becher','Patrick George','Saxon MacArthur',
               'Joshua Marjory','Luther Pigou','Fanny Agnes','Karen Bush','Elaine Whitman'],
             'gender':[0,1,0,0,1,1,1,0,1],'first_name':np.nan,'last_name':np.nan})

print(data)

name  gender  first_name  last_name
0    Verne Raymond       0         NaN        NaN
1   Chapman Becher       1         NaN        NaN
2   Patrick George       0         NaN        NaN
3  Saxon MacArthur       0         NaN        NaN
4   Joshua Marjory       1         NaN        NaN
5     Luther Pigou       1         NaN        NaN
6      Fanny Agnes       1         NaN        NaN
7       Karen Bush       0         NaN        NaN
8   Elaine Whitman       1         NaN        NaN

现在需要将name列的姓和名拆分开来分别放入first_name 和last_name里面,使用map()函数实现,并计算所用时间

def first_name_map(x):
  return x.split(' ')[0]
def last_name_map(x):
  return x.split(' ')[1]

data['first_name'] = data['name'].map(first_name_map)
data['last_name'] = data['name'].map(last_name_map)

print('use time:'+str(end-start))
print(data)

use time:0.0009970664978027344
              name  gender first_name  last_name
0    Verne Raymond       0      Verne    Raymond
1   Chapman Becher       1    Chapman     Becher
2   Patrick George       0    Patrick     George
3  Saxon MacArthur       0      Saxon  MacArthur
4   Joshua Marjory       1     Joshua    Marjory
5     Luther Pigou       1     Luther      Pigou
6      Fanny Agnes       1      Fanny      Agnes
7       Karen Bush       0      Karen       Bush
8   Elaine Whitman       1     Elaine    Whitman

如果要将性别代号的0、1替换为中文Male和Female,可以使用字典映射功能,如下

data['gender'] = data['gender'].map({0:'Female',1:'Male'})

print(data)

name  gender first_name  last_name
0    Verne Raymond  Female      Verne    Raymond
1   Chapman Becher    Male    Chapman     Becher
2   Patrick George  Female    Patrick     George
3  Saxon MacArthur  Female      Saxon  MacArthur
4   Joshua Marjory    Male     Joshua    Marjory
5     Luther Pigou    Male     Luther      Pigou
6      Fanny Agnes    Male      Fanny      Agnes
7       Karen Bush  Female      Karen       Bush
8   Elaine Whitman    Male     Elaine    Whitman

2、map()相比其他方式的优点

较普通的方法主要是方便和速度快,下面例子进行对比,上面已经计算过使用map()方法处理的速度为:0.0009970664978027344

传统遍历

start = time.time()
for index,rows in data.iterrows():
  data['first_name'][index] = rows['name'].split(' ')[0]
  data['last_name'][index] = rows['name'].split(' ')[1]
end = time.time()
print('use time:'+str(end-start))

use time:0.5146446228027344

可以看到使用map()方法比使用直接遍历的方式快了500多倍

list暂存的方法

start = time.time()
first_name = []
last_name = []
for index,rows in data.iterrows():
  first_name.append(rows['name'].split(' ')[0])
  last_name.append(rows['name'].split(' ')[1])
data['first_name'] = first_name
data['last_name'] = last_name
end = time.time()
print('use time:'+str(end-start))

use time:0.001994609832763672

可以看出来使用list暂存的方法比遍历方法快了250多倍,但是比map方法还是慢了一半

二、apply()函数

apply()的使用方法与map()的使用方法类似,只是apply()除了传入Series参数外还可以多传入额外的参数。

Series.apply(func,convert_dtype = True,args = (), **kwds)

参数:
func:函数名称

convert_dtype:bool类值, 默认为True;尝试自己寻找最适合的数据类型。如果为False则dtype=object。

args:元组;在Series之后传递位置参数信息

**kwds:给函数传递其他参数(以字典的形式)

返回Series或DataFrame

下面是案例(参考官方文档案例)

s = pd.Series([20, 21, 12],index=['London', 'New York', 'Helsinki'])
print(s)

London      20
New York    21
Helsinki    12
dtype: int64

处理数据

def subtract_custom_value(x, custom_value):
  return x - custom_value
s.apply(subtract_custom_value, args=(5,))

London      15
New York    16
Helsinki     7
dtype: int64

使用**kwds参数

def subtract_custom_value(x, **kwds):
  for key in kwds:
    x -= kwds[key]
  return x
s.apply(subtract_custom_value, num = 5)

London      15
New York    16
Helsinki     7
dtype: int64

三、applymap()函数用法

applymap()函数处理的对象是DataFrame,并非Series,它没有前面两个函数用得多,但在某些情况也很有用。

DataFrame.applymap(func)

参数:
func:函数;要调用的Python函数,输入输出都为单个值

返回DataFrame

下面是简单的案例:

import pandas as pd
import numpy as np
data = pd.DataFrame(
  {
    "A":np.random.randn(3),
    "B":np.random.randn(3),
    "C":np.random.randn(3),
  }
)
print(data )

A         B         C
0  2.128483 -1.701311 -1.362955
1 -1.149937  1.108856 -0.259637
2 -0.076621 -0.379672 -2.636464

计算所有值的平方:

data.applymap(lambda x: x**2)

A         B         C
0  4.530439  2.894459  1.857645
1  1.322356  1.229561  0.067411
2  0.005871  0.144151  6.950940

总结

本文展示了Pandas将数据映射到函数里批量快速处理的方法,主要使用的了Pandas自带的map、apply和applymap工具,实验结果是比普通循环快500倍,后续还将介绍更多数据处理实用的技巧。

到此这篇关于pandas使用函数批量处理数据(map、apply、applymap)的文章就介绍到这了,更多相关pandas函数批量内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python时间日期函数与利用pandas进行时间序列处理详解

    python标准库包含于日期(date)和时间(time)数据的数据类型,datetime.time以及calendar模块会被经常用到. datetime以毫秒形式存储日期和时间,datetime.timedelta表示两个datetime对象之间的时间差. 下面我们先简单的了解下python日期和时间数据类型及工具 给datetime对象加上或减去一个或多个timedelta,会产生一个新的对象 from datetime import datetime from datetime impo

  • python pandas中DataFrame类型数据操作函数的方法

    python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后几

  • 浅谈pandas中shift和diff函数关系

    通过?pandas.DataFrame.shift命令查看帮助文档 Signature: pandas.DataFrame.shift(self, periods=1, freq=None, axis=0) Docstring: Shift index by desired number of periods with an optional time freq 该函数主要的功能就是使数据框中的数据移动,若freq=None时,根据axis的设置,行索引数据保持不变,列索引数据可以在行上上下移动

  • Python pandas常用函数详解

    本文研究的主要是pandas常用函数,具体介绍如下. 1 import语句 import pandas as pd import numpy as np import matplotlib.pyplot as plt import datetime import re 2 文件读取 df = pd.read_csv(path='file.csv') 参数:header=None 用默认列名,0,1,2,3... names=['A', 'B', 'C'...] 自定义列名 index_col='

  • python pandas.DataFrame.loc函数使用详解

    官方函数 DataFrame.loc Access a group of rows and columns by label(s) or a boolean array. .loc[] is primarily label based, but may also be used with a boolean array. # 可以使用label值,但是也可以使用布尔值 Allowed inputs are: # 可以接受单个的label,多个label的列表,多个label的切片 A singl

  • 对pandas中apply函数的用法详解

    最近在使用apply函数,总结一下用法. apply函数可以对DataFrame对象进行操作,既可以作用于一行或者一列的元素,也可以作用于单个元素. 例:列元素 行元素 列 行 以上这篇对pandas中apply函数的用法详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们. 您可能感兴趣的文章: 浅谈Pandas中map, applymap and apply的区别

  • pandas的连接函数concat()函数的具体使用方法

    concat()函数的具体用法 pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True) 参数含义 objs:Series,DataFrame或Panel对象的序列或映射.如果传递了dict,则排序的键将用作键参数,除非它被传递,在这种情况下,将选择值(见下文).任何

  • pandas apply 函数 实现多进程的示例讲解

    前言: 在进行数据处理的时候,我们经常会用到 pandas .但是 pandas 本身好像并没有提供多进程的机制.本文将介绍如何来自己实现 pandas (apply 函数)的多进程执行.其中,我们主要借助 joblib库,这个库为python 提供了一个非常简洁方便的多进程实现方法. 所以,本文将按照下面的安排展开,前面可能比较啰嗦,若只是想知道怎么用可直接看第三部分: - 首先简单介绍 pandas 中的分组聚合操作 groupby. - 然后简单介绍 joblib 的使用方法. - 最后,

  • 对pandas replace函数的使用方法小结

    语法:replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad', axis=None) 使用方法如下: import numpy as np import pandas as pd df = pd.read_csv('emp.csv') df #Series对象值替换 s = df.iloc[2]#获取行索引为2数据 #单值替换 s.replace('?',np.

  • pandas使用函数批量处理数据(map、apply、applymap)

    前言 在我们对DataFrame对象进行处理时候,下意识的会想到对DataFrame进行遍历,然后将处理后的值再填入DataFrame中,这样做比较繁琐,且处理大量数据时耗时较长.Pandas内置了一个可以对DataFrame批量进行函数处理的工具:map.apply和applymap. 提示:为方便快捷地解决问题,本文仅介绍函数的主要用法,并非全面介绍 一.pandas.Series.map()是什么? 把Series中的值进行逐一映射,带入进函数.字典或Series中得出的另一个值. Ser

  • 详解Pandas的三大利器(map,apply,applymap)

    目录 模拟数据 1.map demo 实际数据 2.apply demo apply实现需求 3.applymap DF数据加1 保留2位有效数字 实际工作中,我们在利用 pandas进行数据处理的时候,经常会对数据框中的单行.多行(列也适用)甚至是整个数据进行某种相同方式的处理,比如将数据中的 sex字段将 男替换成1,女替换成0. 在这个时候,很容易想到的是 for循环.用 for循环是一种很简单.直接的方式,但是运行效率很低.本文中介绍了 pandas中的三大利器: map.apply.a

  • pandas map(),apply(),applymap()区别解析

    基础 以下操作基于python 3.6 windows 10 环境下 通过 将通过实例来演示三者的区别 toward_dict = {1: '东', 2: '南', 3: '西', 4: '北'} df = pd.DataFrame({'house' : list('AABCEFG'), 'price' : [100, 90, '', 50, 120, 150, 200], 'toward' : ['1','1','2','3','','3','2']}) df map()方法 通过df.(ta

  • MySQL通过函数存储过程批量插入数据

    目录 数据库 mysql批量插入数据函数存储过程 附:MySQL通过函数批量插入数据 总结 数据库 mysql批量插入数据函数存储过程 -- 1 批量插入数据 -- 1.1 创建表 CREATE TABLE `dept` ( `id` INT(11) NOT NULL AUTO_INCREMENT, `deptName` VARCHAR(30) DEFAULT NULL, `address` VARCHAR(40) DEFAULT NULL, ceo INT NULL , PRIMARY KEY

  • Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)

    1.单列运算 在Pandas中,DataFrame的一列就是一个Series, 可以通过map来对一列进行操作: df['col2'] = df['col1'].map(lambda x: x**2) 其中lambda函数中的x代表当前元素.可以使用另外的函数来代替lambda函数,例如: define square(x): return (x ** 2) df['col2'] = df['col1'].map(square) 2.多列运算 apply()会将待处理的对象拆分成多个片段,然后对各

  • Python函数中apply、map、applymap的区别

    目录 一.总结 二.实操对比 一.总结 apply -- 应用在 dataFrame 上,用于对 row 或者 column 进行计算 applymap -- 应用在 dataFrame 上,元素级别的操作 map -- python 系统自带函数,应用在 series 上, 元素级别的操作 二.实操对比 构建测试数据框: import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0, 10, (4, 3

  • pandas实现excel中的数据透视表和Vlookup函数功能代码

    在孩子王实习中做的一个小工作,方便整理数据. 目前这几行代码是实现了一个数据透视表和匹配的功能,但是将做好的结果写入了不同的excel中, 如何实现将结果连续保存到同一个Excel的同一个工作表中? 还需要探索. import pandas as pd import numpy as np a = [1601,1602,1603,1604,1605,1606,1607,1608,1609,1610,1611,1612,1701,1702,1703,1704] for i in a: b = st

  • pandas数据清洗,排序,索引设置,数据选取方法

    此教程适合有pandas基础的童鞋来看,很多知识点会一笔带过,不做详细解释 Pandas数据格式 Series DataFrame:每个column就是一个Series 基础属性shape,index,columns,values,dtypes,describe(),head(),tail() 统计属性Series: count(),value_counts(),前者是统计总数,后者统计各自value的总数 df.isnull() df的空值为True df.notnull() df的非空值为T

  • Python Pandas常用函数方法总结

    初衷 NumPy.Pandas.Matplotlib.SciPy 等可以说是最最最常用的 Python 库了.我们在使用 Python 库的时候,通常会遇到两种情况.以 Pandas 举例. 我想对 Pandas 数据结构的数据实现某种操作,但是我不知道或者说在我的印象里似乎已经不记得是否有这样的函数方法,如果有,又该用哪个方法呢? 我想实现某种数据操作,我记得我用过或者见过某个函数可以实现这个功能,但是我死活想不起来那个函数叫啥了.或者,我想起来了哪个函数可以实现这个功能,但是我想知道是否有更

随机推荐