Python extract及contains方法代码实例

一,extract方法的使用

extract函数主要是对于数据进行提取。场景一般对于DataFrame中的一列中的数据进行提取的场合比较多。

例如一列中包含了很长的字段,我们希望在这些字段中提取出我们想要的字段时,就可以通过extract方法进行数据的提取了。

好了,废话不多说直接上代码。

数据源

序号  姓名  服务卡卡号  消费地点  消费时间  理赔金额(元)  交易明细  数量
1  张三  8100001  我爱花钱连锁有限公司  2020/3/1 8:02  605  珍牡肾骨胶囊(珍泉)0.63g*48粒*3盒  1
2  张三  8100001  我爱花钱连锁有限公司  2020/3/1 8:02  1225  桂龙药膏(葛洪)202g*6瓶  1
3  张三  8100001  我爱花钱连锁有限公司  2020/3/2 10:58  27  胆宁片(上药牌)0.36g*60片/瓶  1
4  李四  8100002  我爱花钱连锁有限公司  2020/3/1 9:20  30  阿莫西林胶囊0.5g*24粒/盒  3
5  李四  8100002  我爱花钱连锁有限公司  2020/3/1 9:20  5  氨咖黄敏胶囊(康麦尔)12粒/盒  1
6  李四  8100002  我爱花钱连锁有限公司  2020/3/4 14:26  51  阿归养血口服液(中联)10ml*24支/盒  1
7  李四  8100002  我爱花钱连锁有限公司  2020/3/4 14:26  5  氨咖黄敏胶囊(康麦尔)12粒/盒  1
8  李四  8100002  我爱花钱连锁有限公司  2020/3/9 17:56  28  胆宁片(上药牌)0.36g*60片/瓶  1
9  李四  8100002  我爱花钱连锁有限公司  2020/3/19 11:19  56  柴石退热颗粒(德众)8g*6袋/盒  1
10  李四  8100002  我爱花钱连锁有限公司  2020/3/21 16:04  68  醒脾胶囊0.3g*30粒  1
11  李四  8100002  我爱花钱连锁有限公司  2020/3/31 10:00  60  小败毒膏(东方博爱)10g*8袋  1
12  王五  8100003  我爱花钱连锁有限公司  2020/3/1 10:43  114  枣仁安神液10ml*7支  1
13  王五  8100003  我爱花钱连锁有限公司  2020/3/17 10:40  118  益气维血颗粒(红珊瑚)10g*15袋  1
14  王五  8100003  我爱花钱连锁有限公司  2020/3/21 8:19  615  比卡鲁胺片(双益安)50mg*14s*2板  1
15  王五  8100003  我爱花钱连锁有限公司  2020/3/1 10:56  120  消痛贴膏(奇正)1.2g:2.5ml*10贴/盒  1
16  王五  8100003  我爱花钱连锁有限公司  2020/3/1 12:56  198  复方首乌地黄丸(修正)3g*10袋*3小盒  1
17  王五  8100003  我爱花钱连锁有限公司  2020/3/1 12:56  28  胆宁片(上药牌)0.36g*60片/瓶  1
18  王五  8100003  我爱花钱连锁有限公司  2020/3/1 13:53  256  河车大造丸(同仁堂)9g*10丸/盒  1
19  赵六  8100004  我爱花钱连锁有限公司  2020/3/1 14:52  7  复方氨酚烷胺片(新迪)12片/盒  1
20  赵六  8100004  我爱花钱连锁有限公司  2020/3/1 14:52  149  法莫替丁分散片20mg*36片/盒  1
21  赵六  8100004  我爱花钱连锁有限公司  2020/3/9 19:56  100  朱砂安神丸6g*10袋  1
22  赵六  8100004  我爱花钱连锁有限公司  2020/3/9 19:56  23  清热消炎宁片0.4g*24片/盒  1
23  赵六  8100004  我爱花钱连锁有限公司  2020/3/1 15:16  30  多酶片100s/盒  1
24  赵六  8100004  我爱花钱连锁有限公司  2020/3/1 15:16  1139  补肺丸(养无极)9g*10丸*16板  1
25  赵六  8100004  我爱花钱连锁有限公司  2020/3/5 17:25  170  补肾益寿片(恒修堂)0.4g*100片  1
26  赵六  8100004  我爱花钱连锁有限公司  2020/3/5 17:25  800  益安宁丸72丸*2瓶(每18丸重3.1g)  1
27  赵六  8100004  我爱花钱连锁有限公司  2020/3/9 17:39  800  益安宁丸72丸*2瓶(每18丸重3.1g)  1
28  赵六  8100004  我爱花钱连锁有限公司  2020/3/11 17:30  480  七十味珍珠丸(甘露)1g*6s  1
29  赵六  8100004  我爱花钱连锁有限公司  2020/3/22 16:58  1154  双参龙胶囊45盒装0.3g*24s*45盒  1
30  杨七  8100005  我爱花钱连锁有限公司  2020/3/1 16:54  100  朱砂安神丸6g*10袋  1
31  杨七  8100005  我爱花钱连锁有限公司  2020/3/12 20:53  14  消痔灵片0.3g*24片  1
32  杨七  8100005  我爱花钱连锁有限公司  2020/3/18 10:04  402  回元堂 固本回元口服液 20ml*24瓶20ml*24瓶  1
33  杨七  8100005  我爱花钱连锁有限公司  2020/3/21 11:18  847  伏立康唑分散片(复锐)0.2g*6s  1
34  杨七  8100005  我爱花钱连锁有限公司  2020/3/1 17:36  30  多酶片100s/盒  1

代码

这里是通过jupyter来分段显示的。第一次看我文章的小伙伴如果不了解jupyter可以在复制下面代码的时候把所有输出改成通过print()的方式输出

#%%

import pandas as pd
import re

#需求:
# 1. 把交易明细分成明细跟规格两列并删除交易明细这列
# 2. 明细中把例如珍牡肾骨胶囊(珍泉)的作为明细,0.63g*48粒*3盒作为规格拆分提取

#读取源数据
df = pd.read_excel("./datas/extract案例演示数据.xlsx")

#%%
#提取交易明细这一列
get_column = df["交易明细"]

#通过正则提取数据(?P<名字>)为固定写法给数据加新列名
df01 = get_column.str.extract(R"(?P<明细>[\u4E00-\u9FA5]+\(*[\u4E00-\u9FA5]+\)*)")
df02 = get_column.str.extract(R"(?P<规格>(?:0.|\w*)\w*\*\w*[\u4e00-\u9fa5](?:\S+|))")

#%%
#通过join函数合并2个DataFrame
join_data = df01.join(df02)
join_data
#%%
#删除原有交易明细数据
del df["交易明细"]
df
#%%
#二次合并,删除后交易明细的dataframe合并拆分后数据的dataframe
two_join = df.join(join_data)
#%%
#因为合并后存在排序问题,列名为汉字所以我通过loc方法进行的列名指定排序
#loc方法这里不再讲解,请参照loc,iloc篇章

result = two_join.loc[:,["序号","姓名","消费地点","消费时间",
     "理赔金额(元)","明细","规格","数量"]]
result

#%%
#输出到Excel
result.to_excel("./datas/extract_结果.xlsx",index=False)
print("文件写入完毕!!")
#%%

结果

二,contains方法的使用

contains对比extract而言更多的不是提取,而是一种筛选。有种想python中的in的关系。

只要查询的DataFrame的某列或者某行包含查询字符串的部分字段就可以匹配出所有匹配到的数据。当然可以直接传字符串也可以通过正则来进行筛选。

数据源

学员编号  学生姓名  学生年龄  手机号码  E-mail地址  家庭住址
101  刘鹏  18  13599713364  www.zhangsan@qq.com  江苏省苏州市工业园区津梁街
102  李四  20  15923796671  www.lisi.163.com  北京市朝阳区西北路石井街22幢
103  赵五  17  18655301183  www.zhaofive.yahoo.com  山东省烟台市芝罘区北大街55号
104  tony  30  15877563321  www.tonyliu.ibm.com  江苏省苏州市姑苏区山塘街177号
105  马云  47  15977560013  www.mayun.alibaba.com  浙江省杭州市西湖路110号1888
106  Jack  20  13677569901  www.jack123@qq.com  广东省深圳市南山区西丽1592幢12
107  tom  19  18622349971  www.tom456@qq.com  山东省青岛市人民路1234幢

代码:这里通过jupyter分段来显示结果

#%%
import pandas as pd
import re
df = pd.read_excel("./datas/Person_info1.xlsx")
#%%
#传入正则匹配只要包含的数据
df.loc[df["家庭住址"].str.contains(r"\d")]

结果

通过字符串筛选数据

#%%
#传入字符串,contains属于模糊查找.只要包含就筛选
df.loc[df["家庭住址"].str.contains(r"津梁街")]
#%%
df.loc[df["家庭住址"].str.contains("江苏省")]

结果

另外contains可以二次多次运用。因为涉及到保密数据不方便展示复杂数据。大家可以先尝试按照上面的简单数据,先过滤出家庭地址,再过滤出来年龄。

当然也可以通过loc中的掩码来过滤。方法很多希望灵活应用。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • Oracle 中Contains 函数的用法

    1. 查询住址在北京的学生 SELECT student_id,student_name FROM students WHERE CONTAINS( address, 'beijing' ) remark: beijing是一个单词,要用单引号括起来. 2. 查询住址在河北省的学生 SELECT student_id,student_nameFROM students WHERE CONTAINS( address, '"HEIBEI province"' ) remark: HEBE

  • C#判断字符串中是否包含指定字符串及contains与indexof方法效率问题

    正文  #方法一:使用string.Contains方法 string.Contains是大小写敏感的,如果要用该方法来判断一个string是否包含某个关键字keyword,需要把这个string和这个keyword都转成小写或大写再调用Contains方法: string key = "bbb"; string temp = "aaaBBBcccDDD"; bool isContains= temp.ToLower().Contains(key.ToLower()

  • jQuery中:contains选择器用法实例

    本文实例讲述了jQuery中contains选择器用法.分享给大家供大家参考.具体分析如下: 此选择器匹配包含给定文本的元素. 语法: 复制代码 代码如下: $(":contains(text)") 此选择器一般也要和其他选择器配合使用,比如类选择器和元素选择器等等.例如: 复制代码 代码如下: $("li:contains('html')").css("color","blue") 以上代码将文本中包含"html&

  • 如何解决Mybatis--java.lang.IllegalArgumentException: Result Maps collection already contains value for X

    这两天因为项目需要整合spring.struts2.mybatis三大框架,但启动的时候总出现这个错误,困扰我好久,在网上找到的答案都不是我想要的,今天终于知道原因了. user-mapper.xml如下: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN" "http:/

  • iOS中containsString和rangeOfString的区别小结

    前言 containsString 仅仅只能在iOS8中有,iOS7和iOS7以下用rangeOfString来代替,containsString功能比较简单.单一.但是rangeOfString功能比较复杂,它能遍历整个字符串,里面的options可以有好多情况,这两者有什么区别呢?下面来一起看看吧. 一.containsString //1.containString查找字符串是否包含" iOS " //2.containString适用于ios8系统,在ios7系统下会崩溃 NS

  • jQuery使用contains过滤器实现精确匹配方法详解

    本文实例讲述了jQuery使用contains过滤器实现精确匹配的方法.分享给大家供大家参考,具体如下: :contains 选择器选取包含指定字符串的元素. 该字符串可以是直接包含在元素中的文本,或者被包含于子元素中. 经常与其他元素/选择器一起使用,来选择指定的组中包含指定文本的元素,如: $("p:contains(is)") 表示选择所有包含 "is" 的 <p> 元素. 再如: $("p:contains(张三)") 或 $

  • jQuery contains过滤器实现精确匹配使用方法

    复制代码 代码如下: <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title></title> <!--<script src=&qu

  • PowerShell Contains函数查找字符串实例

    本文介绍在PowerShell中使用字符串的Contains函数,来查询一个字符串中是否存在另一个字符串. Contains()函数是从String对象中继承过来的,可以直接用于字符串的查找判断.Contains()函数的返回值是一个布尔值,即True或False,它表示的含义是存在或不存在. 举例如下: "123"中存在1 复制代码 代码如下: PS C:\Users\spaybow> "123".contains("1") True &

  • 解决Python出现_warn_unsafe_extraction问题的方法

    在Python项目中运行出现了"AttributeError: ResourceManager instance has no attribute '_warn_unsafe_extraction'"问题,研究了一下,发现是setuptools在MacOS下的一个问题(见下图),我出现问题的是pymongo的库,需要删除pymongo,然后降级setuptools再重新安装. 解决方法: 1.删除pymongo: sudo easy_install -mxN pmongo 2.降级se

  • Python extract及contains方法代码实例

    一,extract方法的使用 extract函数主要是对于数据进行提取.场景一般对于DataFrame中的一列中的数据进行提取的场合比较多. 例如一列中包含了很长的字段,我们希望在这些字段中提取出我们想要的字段时,就可以通过extract方法进行数据的提取了. 好了,废话不多说直接上代码. 数据源 序号 姓名 服务卡卡号 消费地点 消费时间 理赔金额(元) 交易明细 数量 1 张三 8100001 我爱花钱连锁有限公司 2020/3/1 8:02 605 珍牡肾骨胶囊(珍泉)0.63g*48粒*

  • Python csv模块使用方法代码实例

    这篇文章主要介绍了Python csv模块使用方法代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 import csv def openSCV(filename): with open("renting.csv",'r',encoding = 'utf_8_sig') as f: f_csv = csv.reader(f) for row in f_csv: print(row) def Test1(): headers =

  • Python class的继承方法代码实例

    这篇文章主要介绍了Python class的继承方法代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 class parent(object): def implicit(self): print("Parent implicit()") def override(self): print("Parent override()") def altered(self): print("Parent a

  • python sort、sort_index方法代码实例

    本文实例为大家分享了python sort.sort_index的具体代码,供大家参考,具体内容如下 对Series进行排序 #生成序列obj obj=pd.Series([4,9,6,20,4],index=['d','a','e','b','c']) d 4 a 9 e 6 b 20 c 4 dtype: int64 #按obj的索引排序,默认升序,降序可在括号加ascending=False obj.sort_index() a 9 b 20 c 4 d 4 e 6 dtype: int6

  • Python getattr()函数使用方法代码实例

    getatter()通过方法名字符串调用方法,这个方法最主要的作用就是实现反射机制,也就是说可以通过字符串获取方法实例,这样就可以把一个类可能要调用的方法放到配置文件里,需要的时候进行动态加载. 1: 可以从类中获取属性和函数 新建test.py文件,代码如下: # encoding:utf-8 import sys class GetText(): def __init__(self): pass @staticmethod def A(): print("this is a staticme

  • Python unittest基本使用方法代码实例

    基本使用 import unittest class Testcase(unittest.TestCase): @classmethod def setUpClass(cls): pass @classmethod def tearDownClass(cls): pass def setUp(self): pass def tearDown(self): pass def test01(self): print("01") def test02(self): print("0

  • python各层级目录下import方法代码实例

    这篇文章主要介绍了python各层级目录下import方法代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 以前经常使用python2.现在很多东西都切换到了python3,发现很多东西还是存在一些差异化的.跨目录import是常用的一种方法,并且有不同的表现形式,新手很容易搞混.有必要这里做个总结,给大家科普一下: 1 同级目录下的调用: 同级目录下的调用比较简单,一般使用场景是不同类的相互调用.不用考虑路径问题,常用的格式是:from

  • python实现杨辉三角的几种方法代码实例

    方法一:迭代 def triangle_1(x): """ :param x: 需要生成的杨辉三角行数 :return: """ triangle = [[1], [1, 1]] # 初始化杨辉三角 n = 3 # 从第三行开始计数,逐行添加 while n <= x: for i in range(0, n-1): if i == 0: # 添加初始列表[1,1],杨辉三角每行的首位和末位必为1 triangle.append([1, 1

  • Python文件操作基本流程代码实例

    文件操作之基本流程 #文本 近日,上市药企--浙江莎普爱思药业股份有限公司频遭质疑. 12月2日,一篇名为<一年卖出7.5亿的洗脑"神药",请放过中国老人>的文章称, 多位眼科医生并不认可莎普爱思滴眼液的"白内障防治功效".质疑者认为, 莎普爱思滴眼液是"假科普,真营销",通过广告误导患者. 针对质疑,莎普爱思3日晚发布的公告称, 0.5%苄达 赖氨酸滴眼液已于上世纪90年代通过了临床试验, 是一种安全的.有效的抗白内障药物.假的 #

  • python的unittest测试类代码实例

    nittest单元测试框架不仅可以适用于单元测试,还可以适用WEB自动化测试用例的开发与执行,该测试框架可组织执行测试用例,并且提供了丰富的断言方法,判断测试用例是否通过,最终生成测试结果.今天笔者就总结下如何使用unittest单元测试框架来进行WEB自动化测试. 题目: 编写一个名为Employee的类,其方法__init__()接受名.姓和年薪,并将它们都存储在属性中.编写一个名为give_raise()的方法,它默认将年薪增加5000美元,但也能够接受其他的年薪增加量. 为Employe

随机推荐