python 正则表达式如何实现重叠匹配

2025-04-02 19:42:21

正则表达式实现重叠匹配

import regex
string = '100101010001'
str_re = '101'
print(regex.findall(str_re, string, overlapped=True))

普通的re库匹配，只能匹配一个’101’。

正则表达式与正则匹配

正则表达式

正则表达式可理解为对数据筛选的表达式，是有限个原子和元字符组成。

原子：基本组成单位，每个表达式至少有一个原子

普通字符组成原子
非打印字符组成原子（不打印在输出台的字符）	\n：换行 \t：tab退格符
通用字符组成原子	\w：匹配任意字母、数字、下划线 \W：与\w相反 \d：匹配任意十进制数 \D：与\d相反 \s：匹配任意空白字符，如空格、换行、缩进 \S：与\s相反
原子表组成原子	一组原子组成一个表，由[]声明表内原子优先级相等，但内容只出现依次若原子表以 ^ 开头，则表示取反

#普通字符组成原子
pat1 = "abcd"

#非打印字符组成原子
pat2 = "\n"

#通用字符做原子
pat3 = "\w"

#原子表组成原子
pat4 = "py[abc]"
#可以匹配pya，pyb，pyc，但匹配pyab等原子表重复出现的情况失败

#原子表开头带 ^ 表示取反
pat5 = "py[^abc]"
#第三个位置匹配除了a，b，c外的任意一个字符

元字符：正则表达式中具有特殊含义的字符

.	匹配任意字符，除了换行符
^	匹配字符串开始的位置
$	匹配字符串结束的位置，当出现多组符合的匹配时，返回字符串最后的那组匹配
*	匹配 0，1，n 次前面的原子【贪婪模式：尽可能多的匹配】
?	匹配 0，1 次前面的原子【懒惰模式：精确匹配】
+	匹配 1，n 次前面的原子
{ j }	前面的原子出现 j 次
{ j , }	前面的原子至少出现 j 次
{ j , k }	前面的原子至少出现 j 次，至多出现 k 次
i \| j	匹配 i 或 j ，若 i 与 j 同时出现，匹配 i
( )	组，限制这组数据的组合如（）内所描述一样，只返回符合括号内描述的内容

模式修正符

即函数中 flag 位置的参数，在不改变正则表达式的情况下改变其含义，调整匹配结果。

re.I	匹配时忽略大小写
re.M	多行匹配
re.L	本地化识别匹配
re.U	根据unicon字符匹配，影响\w \W
re.S	匹配包括换行符

正则匹配

正则表达式是对字符串进行模糊匹配，其中一个应用为正则匹配。正则匹配是python爬虫的一个使用技术，用于在爬取的文本信息中提取目标信息。

正则匹配常用的函数：（调用正则表达式模块re）

re.search(pat, str[, flag])：扫描字符串str，返回pat的位置（第一次成功匹配的），flag用于控制正则表达式的匹配方式

import re
str = 'python'
pat = 'pytho[a-n]'
print(re.search(pat, str))

re.match(pat, str[, flag])：扫描字符串str开始的位置，返回pat的位置（第一次成功匹配的），flag用于控制正则表达式的匹配方式【若开始就不符合则结束，返回none】

import re
str_1 = 'hello world'
str_2 = 'world hello'
pat = 'world'
print(re.match(pat, str_1))
print(re.match(pat, str_2))

re.complie(pat[, flag])：编译正则表达式pat，返回正则表达式对象
findall(str[, pos[, endpos]])：匹配所有，用列表返回string中所有匹配到的子串【不止第一次】，pos和endpos可指定在string中的起始位置
re.complie(pat).findall(str)：全局匹配函数，匹配str中所有符合pat的子串，装入一个列表返回结果

import re
str = "hello world hello world hello world"
pat = "hello"
print(re.complie(pat).findall(str))
print(re.complie(pat).findall(str, 5, 15))

re.sub(pat, repl, str[, count[, flag]])：替换字符串中的匹配项【清洗数据】，可用count指定最大替换次数

import re
str = "400-823-823"
pat = "-"
#短横改空格，最大替换次数2
str_new = re.sub(pat, " ", str, count=2)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

Python中正则表达式对单个字符，多个字符和匹配边界等使用

Regular Expression,正则表达式,又称正规表示式.正规表示法.正则表达式.规则表达式.常规表示法(英语:Regular Expression,在代码中常简写为regex.regexp或RE),是计算机科学的一个概念.正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配.在很多文本编辑器里,正则表达式通常被用来检索.替换那些匹配某个模式的文本. Python 自1.5版本起增加了re 模块.re 模块使 Python 语言拥有全部的正则表达式功能. 1.
Python3正则表达式之：(?(id/name)yes-pattern|no-pattern)条件性匹配

目录 1. 用途 2. 参数含义 3. 语法 4. 用法详解 4.1 把(\d+)后面的问号去掉, 也就是说必须存在group 1,不是可有可无 4.2 改一下匹配字符串 4.3 group可有可无的情况(group后增加问号) 4.4 只匹配group 1 部分, yes部分没有匹配 5.结论 1. 通过4.1 4.2 4.3 对比可以发现: 2. 通过4.4可知:可以仅匹配group部分, 如果yes-pattern和no-pattern没有匹配到, 则会仅输出group匹配的内容
python用正则表达式提取/匹配中文汉字

目录 python用正则表达式提取中文 python正则如何匹配中文汉字总结 python用正则表达式提取中文 Python re正则匹配中文,其实非常简单,把中文的unicode字符串转换成utf-8格式就可以了,然后可以在re中随意调用 unicode中中文的编码为/u4e00-/u9fa5,因此正则表达式u”[\u4e00-\u9fa5]+”可以表示一个或者多个中文字符 >>> import re >>> s='中文:123456aa哈哈哈bbcc'.decod
python正则表达式re.match()匹配多个字符方法的实现

1. *表示匹配任意多个字符 \d*表示匹配任意多个数字字符 import re text = "123h1ello world" text1 = "123Hello world456" text2 = "hello world" res = re.match("\d*", text) res1 = re.match("\d*", text1) res2 = re.match("\d*&qu
如何利用python正则表达式匹配版本信息

问题描述: 用正则表达式提取文本中的版本号信息,比如说:10.1.1 9.5 10.10.11 并实现在文本中(.txt)读入,写出到文本(.txt) 首先构造正则表达式: pattern=Vpat="I.(I.)*I" 构造正则表达式:r'\d+\.(?:\d+\.)*\d+' import re pattern = r'\d+\.(?:\d+\.)*\d+' f=open("F:\\xxxxxx\\banners.txt","r") data
python 正则表达式如何实现重叠匹配

目录正则表达式实现重叠匹配正则表达式与正则匹配正则表达式正则匹配正则表达式实现重叠匹配 import regex string = '100101010001' str_re = '101' print(regex.findall(str_re, string, overlapped=True)) 普通的re库匹配,只能匹配一个’101’. 正则表达式与正则匹配正则表达式正则表达式可理解为对数据筛选的表达式,是有限个原子和元字符组成. 原子:基本组成单位,每个表达式至少有一个原子
python正则表达式中的括号匹配问题

问题: m = re.findall('[0-9]*4[0-9]*', '[4]') 可以匹配到4. m = re.findall('([0-9])*4([0-9])*', '[4]') 匹配不到4. 这是为什么呢?PS,这个是一个简化的说明,我要用的正则比这个复杂,所以要用到(),表示一个序列的匹配. 补充一点,我放在notepad++中用的时候,两种写法都能匹配出来,不知道为什么python中就不行了. 答案: python的正则中用()会进行匹配,所以返回结果是['',''],就是两个()
Python正则表达式如何进行字符串替换实例

Python正则表达式在使用中会经常应用到字符串替换的代码.有很多人都不知道如何解决这个问题,下面的代码就告诉你其实这个问题无比的简单,希望你有所收获. 1.替换所有匹配的子串用newstring替换subject中所有与正则表达式regex匹配的子串 result, number = re.subn(regex, newstring, subject) 2.替换所有匹配的子串(使用正则表达式对象) rereobj = re.compile(regex) result, number = re
Python正则表达式使用经典实例

下面列出Python正则表达式的几种匹配用法,具体内容如下所示: 此外,关于正则的一切http://deerchao.net/tutorials/regex/regex.htm 1.测试正则表达式是否匹配字符串的全部或部分 regex=ur"" #正则表达式 if re.search(regex, subject): do_something() else: do_anotherthing() 2.测试正则表达式是否匹配整个字符串 regex=ur"\Z" #正则表
Python正则表达式非贪婪、多行匹配功能示例

本文实例讲述了Python正则表达式非贪婪.多行匹配功能.分享给大家供大家参考,具体如下: 一些regular的tips: 1 非贪婪flag >>> re.findall(r"a(\d+?)","a23b") # 非贪婪模式 ['2'] >>> re.findall(r"a(\d+)","a23b") ['23'] 注意比较这种情况: >>> re.findall(r&q
Python正则表达式匹配中文用法示例

本文实例讲述了Python正则表达式匹配中文用法.分享给大家供大家参考,具体如下: #!/usr/bin/python #-*- coding:cp936-*-#思路,将str转换成unicode,方可用正则表达式,前提是,要知道文件的编码,本例中是gbk import cPickle as mypickle import re import sys if (__name__=='__main__'): fid1=file('demo.txt','r');#demo.txt写入字符如:我们 p=
Python 正则表达式匹配字符串中的http链接方法

利用Python正则表达式匹配字符串中的http链接.主要难点是用正则表示出http 链接的模式. import re pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+') # 匹配模式 string = 'Its after 12 noon, do you know where your rooftops are? http://tinyur
Python正则表达式匹配和提取IP地址

Linux No.1 IPv4 下面是IPv4的IP正则匹配实例: 简单的匹配给定的字符串是否是ip地址 import re if re.match(r"^(?:[0-9]{1,3}\.){3}[0-9]{1,3}$", "236.168.192.1"): print "IP vaild" else: print "IP invaild" 精确的匹配给定的字符串是否是IP地址 import re if re.match(r&q
Python正则表达式匹配数字和小数的方法

1.正则匹配数字,\为转义字符,d+为匹配一次或多次如下所示:返回的结果为列表 2.正则匹配小数如下所示,返回的结果125.6为字符串总结以上所述是小编给大家介绍的Python正则表达式匹配数字和小数的方法,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的.在此也非常感谢大家对我们网站的支持! 如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!
解决Python正则表达式匹配反斜杠''\''问题

在学习Python正则式的过程中,有一个问题一直困扰我,如何去匹配一个反斜杠(即"\")? 一.引入在学习了Python特殊字符和原始字符串之后,我觉得答案应该是这样的: 1)普通字符串:'\\' 2)原始字符串:r'\' 但事实上在提取诸如"3\8"反斜杠之前的数字时,我屡次碰壁,始终得不到结果.最终发现自己理解错了,原来原始字符串和"正则转义"没有一点关系:下面详细谈一谈. 二.字符串转义反斜杠,在Python中比较特殊,就是它可以用来构

python 正则表达式如何实现重叠匹配

目录

正则表达式实现重叠匹配

正则表达式与正则匹配

正则表达式

正则匹配

相关推荐

随机推荐