浅谈Python中的正则表达式

Python里的正则表达式

Python里的正则表达式,无需下载外部模块,只需要引入自带模块re

import re

官方re模块文档: https://docs.python.org/zh-cn/3.9/library/re.html

同时,Python的正则表达式是PCRE标准的,相较于广泛应用在Unix上的POSIX标准,还是有些区别的(主要是简化)

基本方法

观察re源码,其主要的接口方法有:

  • match(…):从字符串的起始位置匹配一个模式,如果无法匹配成功,则match()就返回none
  • fullmatch(…):是match函数的完全匹配(从字符串开头到结尾)版本
  • search(…):扫描整个字符串并(默认)返回第一个成功的匹配
  • sub(…):用于替换字符串中的匹配项
  • subn(…):和sub(…)类似,但返回值多一个替换次数
  • split(…):分割字符串,返回列表形式f
  • indall(…):在字符串中找到正则表达式所匹配的所有子串,并返回一个列表形式,如果没有找到匹配的,则返回空列表。finditer(…):和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回
  • compile(…):用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用
  • purge(…):用于清除正则表达式缓存

其中,本文主要会介绍的方法为:match(...)search(...)findall(...)spilt(...)。不过,方法都类似,会这些方法,剩下的也大同小异。

元字符与预定义字符集

我认为,元字符算和预定义字符集是正则表达式的核心内容了。

预定义字符集:

预定义字符 说明
\w 匹配下划线“”或任何字母(a-zA-Z)与数字(0-9)等价于a-zA-Z0-9
\W 与\w相反,匹配特殊字符等价于**^a-zA-Z0-9_**
\s 匹配任意的空白字符,等价于**<空格>\r\n\f\v**
\S 与\s相反,匹配任意非空白字符的字符,等价于**^\s**
\d 匹配任意数字,等价于0-9
\D 与\d相反,匹配任意非数字的字符,等价于**^\d**
\b 匹配单词的边界
\B 与\b相反,匹配不出现在单词边界的元素
\A 仅匹配字符串开头,等价于^
\Z 仅匹配字符串结尾,等价于$

元字符:

元字符 说明
. 匹配任何一个字符(除换行符**\n**除外)
^ 脱字符,匹配行的开始
$ 美元符,匹配行的结束
| 连接多个可选元素,匹配表达式中出现的任意子项
[] 字符组,匹配其中的出现的任意一个字符
- 连字符,表示范围,如“1-5”等价于“1、2、3、4、5”
? 匹配其前导元素0次或1次
* 匹配其前导元素0次或多次
+ 匹配其前导元素1次或多次
{n}/{m,n} 匹配其前导元素n次/匹配其前导元素m~n次
() 在模式中划分出子模式,并保存子模式的匹配结果

一般来说,使用+?*{n}{n,}{n,m}时,即激活正则表达式的贪婪模式。可以在其后加入?来取消贪婪模式。

贪婪模式

一般来见,重复多次匹配就是贪婪模式,也就是尽可能匹配多个字符。

比如:

import re

lineOne = "Who is the Mintimate"
# 贪婪模式
print(re.findall(r'\w+',lineOne))
# 非贪婪模式
print(re.findall(r'\w',lineOne))
print(re.findall(r'\w+?',lineOne))

输出:

['Who', 'is', 'the', 'Mintimate']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']

可以看到,使用**?**来激活非贪婪模式,基本是让多次匹配无效化。

捕获与非捕获括号

之所以捕获与非捕获括号单独出来讲,其实是我当时学习正则时候,这边卡了很久。

  • 捕获括号:()
  • 非捕获括号:(?:)

捕获括号其实就是代码里的优先级一样,比如:

2*(2+3)=10

之所以,我们会先算2+3,是因为有**()的存在。正则里也是,如果存在()**,则会优先捕获()内的内容:

import re

lineOne = "Who is Mintimate?"
# 未使用捕获括号
print(re.findall(r'Mintimate',lineOne))
# 使用捕获括号
print(re.findall(r'M(intimate)',lineOne))
# 使用非捕获括号
print(re.findall(r'M(?:intimate)',lineOne))

输出结果:

['Mintimate']
['intimate']
['Mintimate']

而非捕获括号主要与|同时使用:

import re

lineOne = "This is the Mintimate,not the Minimen?"
print(re.findall(r'M(?:intimate|inimen)',lineOne))

输出结果:

['Mintimate', 'Minimen']

正则匹配(判断目标格式)

主要讲解Python下的几个方法使用方法。

match匹配

match(…)即:

re.match(pattern, string, flags=0)

参数的具体含义如下:

  • pattern:表示需要传入的正则表达式。
  • string:表示待匹配的目标文本。
  • flags:表示使用的匹配模式。如:是否区分大小写,多行匹配等等。可省略,默认为0

使用match进行正则匹配,可以方便我们对字符串内类型的判断,如:是否为纯数字或第一位数否为数字

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.match(r"\d", lineOne))
print(re.match(r"\d+", lineOne))
print("===")
print(re.match(r"\d", lineTwo))
print(re.match(r"\d+", lineTwo))

输出结果:

<re.Match object; span=(0, 1), match='7'>
<re.Match object; span=(0, 7), match='7704194'>
===
None
None

其中,\d为匹配0-9的数字类型,而+是匹配出现1次或多次。

正则搜索(提取/分组字符)

正则搜索,常用的是search和findall方法了,方法体均一样:

re.search(pattern, string, flags=0)
re.findall(pattern, string, flags=0)

search和march类似,均是匹配字符串内容,不符合返回None。但是主要区别:

  • re.match() 从第一个字符开始找, 如果第一个字符就不匹配就返回None, 不继续匹配. 用于判断字符串开头或整个字符串是否匹配,速度快
  • re.search() 会整个字符串查找,直到找到一个匹配

代码中更形象:

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
# 使用match搜索纯数字字符串
print(re.match(r"\d", lineOne))
# 使用search搜索纯数字字符串
print(re.search(r"\d", lineOne))
# 使用match搜索复合字符串
print(re.match(r"\d", lineTwo))
# 使用search搜索复合字符串
print(re.search(r"\d", lineTwo))

其输出结果:

<re.Match object; span=(0, 1), match='7'>
<re.Match object; span=(0, 1), match='7'>
None
<re.Match object; span=(31, 32), match='7'>

而findall,在上match和search的前提下,进一步封装。相对于强化版的match和search

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.findall(r'\d',lineOne))
print(re.findall(r"\d",lineTwo))

输出结果:

['7', '7', '0', '4', '1', '9', '4']
['7', '7', '0', '4', '1', '9', '4']

而如果你想完成提取:

print(re.findall(r"\d+",lineTwo))

输出:

['7704194']

方便在数据处理时,快速提取连续数字╮( ̄▽ ̄"")╭。

操作实例

单单看文档,总是不实际。这边我演示几个正则表达式的实例(我根据我自己使用环境所写,可能在其他特殊环境有问题

URL去参

在写爬虫时候,有时候得到的URL是带标签(#)或者Get请求(?id=*)的,但是有时候我们需要去除这些参数,得到纯净的URL地址,这个时候可以用正则表达式:

lineOne = "https://www.mintimate.cn#mintimate"
lineTwo = "https://www.mintimate.cn?user=mintimate"
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineOne))
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineTwo))

效果:

['https://www.mintimate.cn']
['https://www.mintimate.cn']

这里主要的细节:

  • https?:匹配http或https
  • (?😃:非捕获括号,用于和后续|进行配合

IPv4匹配

用正则匹配IPv4就比较复杂了,我是这样写的:

import re

lineOne = "192.168.1.1"
lineTwo="这不是IPv4嗷"
isIPv4=re.compile(r'((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}')
print(isIPv4.search(lineOne))
print(isIPv4.search(lineTwo))

输出结果为:

<re.Match object; span=(0, 11), match='192.168.1.1'>
None

解释一下:

  • 末尾的{3},代表前面(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2}))重复三次匹配,
  • 而前面的((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})我们可以拆分为两部分,(2(5[0-5]|[0-4]\d))和0-1?\d{1,2}:前者是匹配首位为2开头、第二位为1到5或1到4、最后一位为0到9;后者是匹配第一位为0或1,且?代表可以不存在这一项,后两位为两位0-9的数字。

效率问题

使用正则表达式,很大程度是为了精简代码,但是存在一下问题:

  • 代码可读性降低:普通的匹配数字还好,但是如果都像IPv4这样的,一定程度可读性就降低了,维护成本高(虽然后期一般不回去改)
  • 解析时间长:这个还是要看具体代码,但是总的来说:贪婪模式相比懒惰模式以及独占模式有一个回溯过程,消耗资源会更多。

解决方案:

  • 一条正则表达式规则如果运用上百次,可以使用compile()方法进行预先加载。
  • 减少使用贪婪模式。

总结

正则表达式是一个很重要的工具,尤其是在Python数据处理时,能高效处理问题事件。看完这篇文章后,应该对正则表达式不在陌生,感兴趣可以自己写个正则规则,如:强密码判断、IPv6的判断等

另外,因为篇幅所限,更多Python内的细则,可以参考官方文档:

https://docs.python.org/zh-cn/3.9/library/re.html

到此这篇关于浅谈Python中的正则表达式的文章就介绍到这了,更多相关Python正则表达式内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python中正则表达式对单个字符,多个字符和匹配边界等使用

    Regular Expression,正则表达式,又称正规表示式.正规表示法.正则表达式.规则表达式.常规表示法(英语:Regular Expression,在代码中常简写为regex.regexp或RE),是计算机科学的一个概念.正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配.在很多文本编辑器里,正则表达式通常被用来检索.替换那些匹配某个模式的文本. Python 自1.5版本起增加了re 模块.re 模块使 Python 语言拥有全部的正则表达式功能. 1.

  • Python验证的50个常见正则表达式

    什么是正则表达式? 正则表达式(Regular Expression)通常被用来检索.替换那些符合某个模式(规则)的文本. 此处的Regular即是规则.规律的意思,Regular Expression即"描述某种规则的表达式"之意. 本文收集了一些常见的正则表达式用法,方便大家查询取用,并在最后附了详细的正则表达式语法手册. 案例包括:「邮箱.身份证号.手机号码.固定电话.域名.IP地址.日期.邮编.密码.中文字符.数字.字符串」 Python如何支持正则? 我用的是python来实

  • Python正则表达式高级使用方法汇总

    正则表达式是一个以简单直观的方式匹配指定文本信息从而达到查找.替换等操作的目的.正则表达式以其简单而高效的特点使得其在数据分析和数据验证方面应用广泛. 对于简单的正则表达式可以直接百度之,这里重点引荐下'特殊'操作. 1.非贪婪模式 - {x,y}? 非贪婪模式是指在使用正则匹配时,尽可能少的匹配(默认是贪婪模式,即:尽可能多的匹配).例: >>> re.search(r'[\d]{2,5}?','091234568') <_sre.SRE_Match object; span=(

  • Python如何使用正则表达式爬取京东商品信息

    京东(JD.com)是中国最大的自营式电商企业,2015年第一季度在中国自营式B2C电商市场的占有率为56.3%.如此庞大的一个电商网站,上面的商品信息是海量的,小编今天就带小伙伴利用正则表达式,并且基于输入的关键词来实现主题爬虫. 首先进去京东网,输入自己想要查询的商品,小编在这里以关键词"狗粮"作为搜索对象,之后得到后面这一串网址: https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8,其实参数%

  • Python使用正则表达式实现爬虫数据抽取

    1. 为什么要使用正则表达式? 首先,大家来看一个例子.一个文本文件里面存储了一些市场职位信息,格式如下所示: Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东新区2万/月02-18满员 测试开发工程师(C++/python) 上海墨鹍数码科技有限公司上海-浦东新区2.5万/每月02-18未满员 Python3 开发工程师 上海德拓信息技术股份有限公司上海-徐汇区1.3万/每月02-18剩余11人 测试开发工程师(Python) 赫里普(上海)信息科技有限公司上海-浦东新区1.

  • 浅谈Python中的正则表达式

    Python里的正则表达式 Python里的正则表达式,无需下载外部模块,只需要引入自带模块:re: import re 官方re模块文档: https://docs.python.org/zh-cn/3.9/library/re.html 同时,Python的正则表达式是PCRE标准的,相较于广泛应用在Unix上的POSIX标准,还是有些区别的(主要是简化) 基本方法 观察re源码,其主要的接口方法有: match(-):从字符串的起始位置匹配一个模式,如果无法匹配成功,则match()就返回

  • 浅谈python中的正则表达式(re模块)

    一.简介 正则表达式本身是一种小型的.高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配.正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行. 二.正则表达式中常用的字符含义 1.普通字符和11个元字符: 普通字符 匹配自身 abc abc . 匹配任意除换行符"\n"外的字符(在DOTALL模式中也能匹配换行符 a.c abc \ 转义字符,使后一个字符改变原来的意思 a\.c;a\\c a.c;a\c * 匹配前一个字

  • 浅谈Python中的字符串

    可能大多数人在学习C语言的时候,最先接触的数据类型就是字符串,因为大多教程都是以"Hello world"这个程序作为入门程序,这个程序中要打印的"Hello world"就是字符串.如果你做过自然语言处理方面的研究,并且用Python去做过相关实验,你肯定会体会到Python在字符串处理方面相对于其他语言的明显优势之处.今天我们来了解一下Python中的字符串,看看它的用法. 一.Python中如何声明字符串 在Python中声明一个字符串通常有三种方法:在它的两

  • 浅谈python中copy和deepcopy中的区别

    在下是个编程爱好者,最近将魔爪伸向了Python编程.....遇到copy和deepcopy感到很困惑,现在针对这两个方法进行区分,一种是浅复制(copy),一种是深度复制(deepcopy). 首先说一下deepcopy,所谓的深度复制,在这里我理解的是完全复制然后变成一个新的对象,复制的对象和被复制的对象没有任何关系,彼此之间无论怎么改变都相互不影响. 然后说一下copy,在这里我分为两类来说,一种是字典数据类型的copy函数,一种是copy包的copy函数. 一.字典数据类型的copy函数

  • 浅谈python中列表、字符串、字典的常用操作

    列表操作如此下: a = ["haha","xixi","baba"] 增:a.append[gg] a.insert[1,gg] 在下标为1的地方,新增 gg 删:a.remove(haha) 删除列表中从左往右,第一个匹配到的 haha del a.[0] 删除下标为0 对应的值 a.pop(0) 括号里不写内容,默认删除最后一个,写了,就删除对应下标的内容 改:a.[0] = "gg" 查:a[0] a.index(&q

  • 浅谈Python中函数的参数传递

    1.普通的参数传递 >>> def add(a,b): return a+b >>> print add(1,2) 3 >>> print add('abc','123') abc123 2.参数个数可选,参数有默认值的传递 >>> def myjoin(string,sep='_'): return sep.join(string) >>> myjoin('Test') 'T_e_s_t' >>>

  • 浅谈python中的面向对象和类的基本语法

    当我发现要写python的面向对象的时候,我是踌躇满面,坐立不安呀.我一直在想:这个坑应该怎么爬?因为python中关于面向对象的内容很多,如果要讲透,最好是用面向对象的思想重新学一遍前面的内容.这个坑是如此之大,犹豫再三,还是只捡一下重要的内容来讲吧,不足的内容只能靠大家自己去补充了. 惯例声明一下,我使用的版本是 python2.7,版本之间可能存在差异. 好,在开讲之前,我们先思考一个问题,看代码: 为什么我只创建是为 a 赋值,就可以使用一些我没写过的方法? 可能会有小伙伴说:因为 a

  • 浅谈python中的getattr函数 hasattr函数

    hasattr(object, name) 作用:判断对象object是否包含名为name的特性(hasattr是通过调用getattr(ojbect, name)是否抛出异常来实现的). 示例: >>> hasattr(list, 'append') True >>> hasattr(list, 'add') False getattr(object,name,default): 作用:返回object的名称为name的属性的属性值,如果属性name存在,则直接返回其

  • 浅谈python中的数字类型与处理工具

    python中的数字类型工具 python中为更高级的工作提供很多高级数字编程支持和对象,其中数字类型的完整工具包括: 1.整数与浮点型, 2.复数, 3.固定精度十进制数, 4.有理分数, 5.集合, 6.布尔类型 7.无穷的整数精度 8.各种数字内置函数及模块. 基本数字类型 python中提供了两种基本类型:整数(正整数金额负整数)和浮点数(注:带有小数部分的数字),其中python中我们可以使用多种进制的整数.并且整数可以用有无穷精度. 整数的表现形式以十进制数字字符串写法出现,浮点数带

  • 浅谈python中scipy.misc.logsumexp函数的运用场景

    scipy.misc.logsumexp函数的输入参数有(a, axis=None, b=None, keepdims=False, return_sign=False),具体配置可参见这里,返回的值是np.log(np.sum(np.exp(a))). 这里需要强调的是使用该函数的场景: 一般来说,该函数主要用于非常小的数值的运算(比如蒙特卡洛取样样本).在这种情况下,将数据保持log处理是必须的.所以这时你如果想将数组中的数据累加求和就需要这样计算log(sum(exp(a))),但这样做就

随机推荐