Python正则表达式基本原理

2026-05-04 12:43:29

️正则表达式

大家好，大家都听过正则表达式，却不知道正则表达式干什么的。正则表达式是一个特殊的符号系列，它可以帮助我们检查某个字符串和某种模式匹配。在python中，re库拥有全部的正则表达式的功能。

今天，我们来深入的了解一下。我们知道正则表达式是处理字符串的强大工具，它有自己的语法结构，什么匹配啊，都不算什么。

正则表达式是什么？

正则表达式，又称规则表达式，(英语:Regular Expression，在代码中常简写为 regex、regexp 或 RE)，它是计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。例如在 Perl 中内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由 Unix 中的工具软件普及开的。正则表达式是对字符串(包括普通字符(例如，a 到 z 之间的字母)和特殊字符(称为"元字符"))操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个"规则字符串"，这个"规则字符串"用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串。

1.实例引入

说了一大堆废话，大家可能还是云里雾里的，我们通过实例来说明一下，我们可以用正则表达式测试工具，或者python都可以，首先，我们输入一段文本。

hello，my name is Tina，my phone number is 123456 and my web is http://tina.com.

                               [a-zA-z]+://[^\s]*

我们就可以获取网页链接，也就是文本中的url，是不是很神奇？

这是因为它有自己的匹配规则，部分如下。

模式	描述
.	任意字符
*	0个或者多个表达式
+	一个或者多个表达式

关于更多的匹配规则可自行查阅。

?,*,+,\d,\w 都是等价字符

?等价于匹配长度{0,1}

*等价于匹配长度{0,}

+等价于匹配长度{1,}

\d 等价于[0-9]

\D 等价于[^0-9]

\w 等价于[A-Za-z_0-9]

\W 等价于[^A-Za-z_0-9]

2.match()

这里介绍一个常用的匹配方法——match（），向他传入要匹配的字符串以及正则表达式，就可以检测这个正则表达式是否匹配字符串。

匹配目标

res = re.match('hello\s(\d+)sword')

贪婪匹配

res = re.match('hello.*(\d+)sword')

3.findall（）

我们最常用的就是这个，我们看看这个是如何使用的。

import re

useData = str(input('请输入字符串数据:'))

'''
匹配字符串中的数字,+是匹配前面的子表达式一次或多次
'''
digital = re.findall('\d+',useData)

print(digital)

我们看看运行结果

findall()函数是返回所有匹配到的字符串,返回值的数据类型为列表。

常用符号

我们再来说说正则表达式的常用符号吧。

“.”字符为匹配任意单个字符。

“\”字符为转义字符。

“[…]”为字符集。

“(.*?)” 是python爬虫最常用的一个字符，叫贪心算法，可以匹配任意的字符。

下面我们看一个示例代码。

import re

a=‘xxixxjshdxxlovexxsfhxxpythonxx'

data=re.findall(‘xx(.*?)xx')

print(data)

我们运行一下，看下效果。

运行结果
[‘I’ ,‘love’,‘python’]

特殊字符

所谓特殊字符，就是一些有特殊含义的字符，比如讲 runoo*b 中的，简单的说就是表示任何字符串的意思。如果要查找字符串中的 * 符号，则需要对 * 进行转义，即在其前加一个 \，runo*ob 匹配字符串 runo\*ob。

许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符，必须首先使字符"转义"，即，将反斜杠字符\ 放在它们前面。下表列出了正则表达式中的特殊字符：

特别字符	描述
$	匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身，请使用 $。
()	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 ( 和 )。
*	匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 *。
+	匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 +。
.	匹配除换行符 \n 之外的任何单字符。要匹配 . ，请使用 . 。

概念说了一大堆，大家可能也记不住，我直接说几个案例，大家就能明白其他的道理。

这是某网的HTML，部分片段如下：

<span class=“price”>§<i>123</i></span>

<span class=“price”>§<i>133</i></span>

<span class=“price”>§<i>156</i></span>

<span class=“price”>§<i>189</i></span>

大家会发现只有中间的一段不一样，而不一样的数据就是我们想要的，我们怎么用正则表达式提取出来呢.

<span class=“price”>§<i>(.*?)</i></span>

就可以了，我们看看效果吧。

123
133
156
189

总结

我们可以从HTML代码提取我们想要的数据。我们知道正则表达式就是其中一个有效的办法。通过本文我们基本了解了其中的原理。后面我们将通过两个具体案例来加深对正则表达式的理解。

到此这篇关于Python正则表达式基本原理的文章就介绍到这了,更多相关Python正则表达式内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python正则表达式re.sub()用法详解

目录 1.匹配单个数字或字母 2.匹配多个数字或字母 3.匹配其他总结源代码.参数及其意义: def sub(pattern, repl, string, count=0, flags=0): """Return the string obtained by replacing the leftmost non-overlapping occurrences of the pattern in string by the replacement repl. repl ca
python正则表达式对字符串的查找匹配

目录常用的RegEx基础语法常用的RegEx函数以下为部分示例: 总结 Python中的正则表达式要用到re模块,下面先介绍一下正则表达式需要用到的特殊字符和说明常用的RegEx基础语法语法说明 \d 匹配一个数字字符 \D 匹配一个非数字字符 \s 匹配任何不可见字符(空格.制表符.换行符等) \S 匹配任何可见字符 \w 匹配任何单词字符 \W 匹配任何非单词字符 . 匹配所有字符 ^ 从字符串开头开始匹配,比如^\d表示以一个数字字符开头 $ 从字符串末尾开始匹配,比如\d$表
Python正则表达式re.search()用法详解

re.search():匹配整个字符串,并返回第一个成功的匹配.如果匹配失败,则返回None pattern: 匹配的规则, string : 要匹配的内容, flags 标志位这个是可选的,就是可以不写,可以写, 比如要忽略字符的大小写就可以使用标志位 flags : 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为: re.I 忽略大小写 re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境 re.M 多行模式 re.S 即为 . 并且包括换行符
解读python正则表达式括号问题

目录 python正则表达式括号 python中re库函数的简单用法 python正则表达式入门教程括号及字符括号区别常用正则表达式 python正则表达式括号 python中re库函数的简单用法 re.findall(pattern,string) 匹配所有符合正则表达式的字符,返回一个列表 re.search(pattern,string) 查找第一个符合正则表达式的字符,返回一个Matcher对象.用group()或groups()方法取值 re.match(pattern,strin
python中如何使用正则表达式提取数据

目录常用正则表达式实例 re.compile 函数方括号-匹配几个字符之一切割字符串字符串替换匹配模式替换指定替换函数总结正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. re 模块使 Python 语言拥有全部的正则表达式功能. compile 函数可创建一个模式字符串和可选的标志参数组成的一个正则表达式对象.该对象拥有一系列方法用于正则表达式匹配和替换. re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一
python如何用正则表达式提取字符串

目录用正则表达式提取字符串 1. 单个位置的字符串提取 2. 连续多个位置的字符串提取用正则表达式提取字符串中的整数总结用正则表达式提取字符串在日常工作中经常遇见在文本中提取特定位置字符串的需求. python的正则性能好,很适合做这类字符串的提取,正则表达式的提取一般分两种情况,一种是提取在文本中提取单个位置的字符串,另一种是提取连续多个位置的字符串. 日志分析会遇到这种情况. 1. 单个位置的字符串提取这种情况我们可以使用(.+?)这个正则表达式来提取. 举例,一个字符串"a12
Python正则表达式基本原理

目录 ️正则表达式正则表达式是什么? 1.实例引入 2.match() 匹配目标贪婪匹配 3.findall() 常用符号特殊字符总结 ️正则表达式大家好,大家都听过正则表达式,却不知道正则表达式干什么的.正则表达式是一个特殊的符号系列,它可以帮助我们检查某个字符串和某种模式匹配.在python中,re库拥有全部的正则表达式的功能. 今天,我们来深入的了解一下.我们知道正则表达式是处理字符串的强大工具,它有自己的语法结构,什么匹配啊,都不算什么. 正则表达式是什么? 正则表达式,又称规
python正则表达式re之compile函数解析

re正则表达式模块还包括一些有用的操作正则表达式的函数.下面主要介绍compile函数. 定义: compile(pattern[,flags] ) 根据包含正则表达式的字符串创建模式对象. 通过python的help函数查看compile含义: help(re.compile) compile(pattern, flags=0) Compile a regular expression pattern, returning a pattern object. 通过help可以看到compile
基于Python正则表达式提取搜索结果中的站点地址

正则表达式对于Python来说并不是独有的,最近在把google搜索的结果中所有的站点地址导出,于是想到用python正则表达式提取搜索结果中的站点地址. 这其中涉及几个需要解决的问题: 1.获取搜索的结果文本为了获得更多的地址,我使用了Google的高级搜索功能,每个页面显示100条结果. 获得显示的结果后,可以查看源码,并保持成文本文件就有了搜索的结果文本 2.分析如何提取站点信息首先需要分析获取的页面,查看以怎样的方式可以提取出站点信息. 我使用IE8自带的开发工具(按F12就会弹出来
Python正则表达式教程之一：基础篇

前言之前有人提了一个需求,我一看此需求用正则表达式最合适不过.考虑到之前每次使用正则表达式,都是临时抱佛脚,于是这次我就一边完成任务一边系统的学习了一遍正则表达式.主要参考PyCon2016上的一个视频Regular Expressions. 我将分几篇文章对正则表达式进行总结. 以下是第一部分,基础: 基础部分这里总结了正则表达式最基础的用法,其中大部分内容对我(以及大部分程序员)来说都是平时经常用到的,所以我就一笔带过了,只对其中的几处用例子说明. . 除了换行之外
Python正则表达式的七个使用范例详解

作为一个概念而言,正则表达式对于Python来说并不是独有的.但是,Python中的正则表达式在实际使用过程中还是有一些细小的差别. 本文是一系列关于Python正则表达式文章的其中一部分.在这个系列的第一篇文章中,我们将重点讨论如何使用Python中的正则表达式并突出Python中一些独有的特性. 我们将介绍Python中对字符串进行搜索和查找的一些方法.然后我们讲讨论如何使用分组来处理我们查找到的匹配对象的子项. 我们有兴趣使用的Python中正则表达式的模块通常叫做're'. >>>
Python正则表达式常用函数总结

本文实例总结了Python正则表达式常用函数.分享给大家供大家参考,具体如下: re.match() 函数原型: match(pattern, string, flags=0) Try to apply the pattern at the start of the string, returning a match object, or None if no match was found. 函数作用: re.match函数尝试从字符串的开头开始匹配一个模式,如果匹配成功,返
Python正则表达式知识汇总

1. 正则表达式语法 1.1 字符与字符类 1 特殊字符:\.^$?+*{}[]()| 以上特殊字符要想使用字面值,必须使用\进行转义 2 字符类 1. 包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个. 2. 字符类内可以指定范围,比如[a-zA-Z0-9]表示a到z,A到Z,0到9之间的任何一个字符 3. 左方括号后跟随一个^,表示否定一个字符类,比如[^0-9]表示可以匹配一个任意非数字的字符. 4. 字符类内部,
Python正则表达式非贪婪、多行匹配功能示例

本文实例讲述了Python正则表达式非贪婪.多行匹配功能.分享给大家供大家参考,具体如下: 一些regular的tips: 1 非贪婪flag >>> re.findall(r"a(\d+?)","a23b") # 非贪婪模式 ['2'] >>> re.findall(r"a(\d+)","a23b") ['23'] 注意比较这种情况: >>> re.findall(r&q
Python正则表达式使用范例分享

作为一个概念而言,正则表达式对于Python来说并不是独有的.但是,Python中的正则表达式在实际使用过程中还是有一些细小的差别. 本文是一系列关于Python正则表达式文章的其中一部分.在这个系列的第一篇文章中,我们将重点讨论如何使用Python中的正则表达式并突出Python中一些独有的特性. 我们将介绍Python中对字符串进行搜索和查找的一些方法.然后我们讲讨论如何使用分组来处理我们查找到的匹配对象的子项. 我们有兴趣使用的Python中正则表达式的模块通常叫做're'. >>>
Python正则表达式匹配中文用法示例

本文实例讲述了Python正则表达式匹配中文用法.分享给大家供大家参考,具体如下: #!/usr/bin/python #-*- coding:cp936-*-#思路,将str转换成unicode,方可用正则表达式,前提是,要知道文件的编码,本例中是gbk import cPickle as mypickle import re import sys if (__name__=='__main__'): fid1=file('demo.txt','r');#demo.txt写入字符如:我们 p=