Python中re模块的常用方法总结

2025-12-29 02:33:38

前言

正则表达式作为计算机科学的一个概念，通常被用来检索、替换那些符合某个规则的文本。正则表达式是对字符串操作的一种逻辑公式，用事先定义好的规则字符串对字符串进行过滤逻辑处理。

re模块总结，正则表达式。在网络爬虫中对于数据定位，学习regex也很有必要

常用方法

re.compile()
将指定的正则表达式模式编译为正则表达式对象，可用于匹配和搜索
re.match()
该方法用于匹配字符串开头的模式
re.serach()
该方法用于匹配出现在字符串中任意位置的模式
re.findall()
该方法返回字符串中制定正则表达式模式的所有非重叠匹配项
re.finditer()
对于从左到右扫描字符串中的特定模式，该方法以迭代器的形式返回所有匹配的实例
re.sub()
用于以替换串来替代字符串中特定的模式，他仅仅替换字符串中最左侧出现的模式

重要标识符

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

常用表达式规则

举例说明

下面的代码描述了其中一些方法，并展示了在处理字符串和正则表达式通常如何使用他们

import re
pattern = "python"
s1 = "Python is an excellent language"
s2 = "I love Python language.I also use Python to build applicants at work!"

re.match(pattern, string, flags=0)

从起始位置开始根据模型去字符串中匹配指定内容，匹配单个

re.match(pattern,s1)

因为大小写，无法匹配成功

re.I 或 re.IGNORECASE 用于匹配不区分大小写的模式

re.match(pattern,s1,re.I)

<re.Match object; span=(0, 6), match='Python'>

re.match(pattern,s1,re.IGNORECASE)

<re.Match object; span=(0, 6), match='Python'>

re.search(pattern, string, flags=0)

根据模型去字符串中匹配指定内容，匹配单个

现在来看下find()和search()方法在正则表达式是如何工作的

re.search(pattern,s2,re.IGNORECASE)

<re.Match object; span=(7, 13), match='Python'>

re.findall(pattern, string, flags=0)

match and search均用于匹配单值，即：只能匹配字符串中的一个，如果想要匹配到字符串中所有符合条件的元素，则需要使用 findall。

re.findall(pattern,s2,re.IGNORECASE)

['Python', 'Python']

re.sub(pattern, repl, string, count=0, flags=0)

用于文本替换的正则表达式对于查找和替换字符串中的特定文本标识符很有用

用于替换匹配的字符串,比str.replace功能更加强大

re.sub(pattern,"Java",s2,flags=re.I)

'I love Java language.I also use Java to build applicants at work!'

re.subn(pattern,"Java",s2,flags=re.I)

('I love Java language.I also use Java to build applicants at work!', 2)

re.split(pattern, string, maxsplit=0, flags=0)

用匹配到的值做为分割点，把值分割成列表

s1

'Python is an excellent language'

re.split(" ",s1)

['Python', 'is', 'an', 'excellent', 'language']

按数字分割

print(re.split("\d+","https://blog.csdn.net/qq_45176548"))

‘(?P…)' 分组匹配

s = '230701200104280028'
print(re.search('(?P<province>\d{3})(?P<city>\d{3})(?P<born_date>\d{8})(?P<seq>\d{4})',s))
print(re.search('(?P<province>\d{3})(?P<city>\d{3})(?P<born_date>\d{8})(?P<seq>\d{4})',s).groups())
res = re.search('(?P<province>\d{3})(?P<city>\d{3})(?P<born_date>\d{8})(?P<seq>\d{4})',s)
print(res.groupdict())

<re.Match object; span=(0, 18), match='230701200104280028'>
('230', '701', '20010428', '0028')
{'province': '230', 'city': '701', 'born_date': '20010428', 'seq': '0028'}
---

总结

到此这篇关于Python中re模块常用方法的文章就介绍到这了,更多相关Python中re模块方法内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python3 json模块之编码解码方法讲解

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它基于ECMAScript的一个子集. JSON采用完全独立于语言的文本格式,这些特性使JSON成为理想的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成,在接口数据开发和传输中非常常用. Python3中我们利用内置模块json解码和编码JSON对象.json模块提供了四个功能: dumps.dump.loads.load dumps 把数据类型转换成字符串 dump 把数据类型转换成字符串
python os模块和fnmatch模块的使用介绍

一.先介绍一下os模块 import os print(os.getcwd()) # E:\python\test\python_models # 获取当前的目录 print(os.listdir(".")) # ['oop.py', 'python_argparse.py', 'python_click.py', 'python_os.py', 'python_re.py', 'python_requests.py', 'xx.py', '__init__.py'] #
Python模块介绍与使用详细讲解

模块的相关概念 1. 什么是模块模块就好比是工具包,要想使用这个工具包中的工具(就好比函数),就需要导入这个模块模块的英文名叫: modules,一个模块中可以包含N个函数,也可以包含类等等. 在Python中一个扩展名为.py的文件就是一个模块. 2. 使用模块的好处方便其他程序和脚本的导入并使用避免函数名和变量的冲突提高代码的可维护性提高代码的可重用性模块的使用 1. 自定义模块创建一个.py文件,名称尽量不要与Python自带的标准模块名称相同,需要见名知意. a) 方法一
python glom模块的使用简介

工欲善其事,必先利其器!我们想要更轻松更有效率地开发,必须学会一些"高级"技能.前不久看到一位 Python 高僧的代码,其中使用了一个短小精悍的模块,我认为还蛮有用的,今天分享给大家. 这个模块就叫 glom ,是 Python 处理数据的一个小模块,它具有如下特点: 嵌套结构并基于路径访问使用轻量级的Pythonic规范进行声明性数据转换可读.有意义的错误信息内置数据探测和调试功能看起来比较抽象,对不对?下面我们用实例来给大家演示一下. 安装作为 Python 内置模块,
python urllib.request模块的使用详解

python的urllib模块提供了一系列操作url的功能,可以让我们通过url打开任意资源.其中比较常用的就是request模块,本篇主要介绍requset模块. urllib子模块 urllib.request 打开或请求url urllib.error 捕获处理请求时产生的异常 urllib.parse 解析url urllib.robotparser 用于解析robots.txt文件 robots.txt是一种存放于网站根目录下文本文件,用来告诉网络爬虫服务器上的那些文件可以被查看.又被
python tkinter模块的简单使用

由于一些小原因,被迫开始了tkinter一次实战演练.在此做一些记录,总结以及给自己留一些轮子哈哈哈哈哈哈 tkinter 是 Python 的一个GUI库,本次实战完全使用tkinter,不牵扯任何其他第三方库的使用. 1.任务要求画一个具有上传病患信息以及图片功能的用户界面 2.简单设计由于时间紧迫且只要求可视化,背后没有必要太过精细,所以简单设计思路是,利用下拉列表实现病患信息的填写,用text显示选择图片的路径. 表面上的组件包括:两个Button:选择目录 SELECT THE D
python 绘图模块matplotlib的使用简介

上周对线上某几个磁盘进行了fio硬盘性能测试,测试完成之后的结果需要绘制成图像展示出来.我在官网上查找了一下fio自带的命令fio_generate_plot和fio2gnuplot工具的用法,找到了图像的绘制方法,在某一个单一的场景下,确实可以使用这两个工具来进行硬盘性能图像绘制,但是问题是,如果要对比多个场景下绘制出来的图像的差异,fio自带的绘图工具实现起来就有些困难了,但是确实也能实现.例如下图: 如图所示为磁盘iodepth不变,numjobs在(1,8,16)三种不同的场景下绘制出来
python使用timeit时间模块

1. timeit.timeit(stmt='pass', setup='pass', timer=<default timer>, number=default_number) timeit() 函数有四个参数,每个参数都是关键字参数,都有默认值. stmt:传入需要测试时间的代码,可以直接传入代码表达式或单个变量,也可以传入函数.传入函数时要在函数名后面加上小括号,让函数执行,如 stmt = 'func()' . setup:传入 stmt 的运行环境,如 stmt 中使用到的参数.变量
Python实现学生管理系统的代码(JSON模块)

构思学生管理系统应该包含老师注册登录管理学生信息(增删改查)还有数据持久化因为数据存入JSON文件增删改查都需要读取和修改文件所以需要一个读写文件的方法文件 file_manager 密码加密可以用到哈希模块文件 tools 老师和学生的类文件 model 程序入口(主页)文件index 核心增删改查文件 student_manager file_manager.py """ Project: ClassStudent Creator: 猫猫 Create tim
python requests模块的使用示例

为什么使用requests: 支持使用Cookie保持会话支持文件上传支持自动确定响应内容的编码对用户来说比较人性化模拟get请求: 获取token # 使用微信公众平台举例 get_param_dict={ "grant_type":"**************", "appid":"**************", "secret":"**************", }
python 中os模块os.path.exists()的用法说明

os即operating system(操作系统),Python 的 os 模块封装了常见的文件和目录操作. os.path模块主要用于文件的属性获取,exists是"存在"的意思,所以顾名思义,os.path.exists()就是判断括号里的文件是否存在的意思,括号内的可以是文件路径. 举个栗子: user.py为存在于当前目录的一个文件输入代码: import os path = os.path.exists('user.py') print(path) 输出结果: True P