python正则表达式用法超详细讲解大全

目录
  • 一、re.compile 函数
  • 二、正则表达式
    • 表示字符
    • 表示数字
    • 匹配边界
  • 三、re模块的高级用法
    • 1、findall:pattern在string里所有的非重复匹配,返回一个迭代器iterator保存了匹配对象
    • 2、sub:将匹配到的字符串,再次进行操作
    • 3、split:切割匹配成功的字符串
  • 四、贪婪和非贪婪模式
  • 总结

一、re.compile 函数

作用:compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。

案例:如何判断是正规的手机号

phone='''
weref234
16888888888
as13423423
weq
435435
15812312312e
afa15812312316
13111111111
'''

pattern=re.compile(r'1[3-9]\d{9}')  	#todo 编译正则表达式之后得到一个编译对象

result=pattern.search(phone)   			#todo search只会返回第一个匹配的结果,如果没有匹配成功返回None
print(result)                   		#todo <re.Match object; span=(10, 21), match='15812312312'>

打印结果:

<re.Match object; span=(10, 21), match=‘16888888888’>
16888888888
(10, 21)

特别注意1

result=pattern.search(phone):search匹配成功返回的是Match对象;search只会返回第一个匹配的结果,如果没有匹配成功则返回None
result.group():返回第一个匹配结果
result.span():返回第一个匹配结果的下标,为什么是(10,21)呐?
weref234:从0开始,4结束后还包含了换行符’/n’2个字符,所以从10开始,不包含21,前闭后开的原则

特别注意2

match函数:match匹配成功返回的是Match对象;作用用来匹配第一个注意是第一个字符的,这里的第一个是在被搜索的这串字符的第一个索引上的;如果第一个字符不匹配,则返回None

phone='''
weref234
16888888888
as13423423
weq
435435
15812312312e
afa15812312316
13111111111
'''

pattern=re.compile(r'1[3-9]\d{9}')     #todo 编译正则表达式之后得到一个编译对象
result2=pattern.match(phone)
print(result2)

打印结果为None,因为第一个字符为w开头,所以匹配不到

phone1="17812312345aaa"
pattern=re.compile(r'1[3-9]\d{9}')     #todo 编译正则表达式之后得到一个编译对象

result2=pattern.match(phone1)   #todo match函数是从第一个字符开始匹配(从w开始匹配),如果第一个字符不匹配,则返回None
print(result2)
print(result2.group())   #todo 返回第一个匹配结果
print(result2.span())    #todo 返回第一个匹配结果的下标

打印结果:

<re.Match object; span=(0, 11), match=‘17812312345’>
17812312345
(0, 11)

二、正则表达式

表示字符

.:匹配任意单个字符(不包括换行符)
[]:匹配字符集,区间中的集合,可匹配其中任意一个字符
\d:匹配数字,即0-9,可以表示为[0-9]、
\s:匹配空白字符,即空格
\S:匹配非空白字符,
\w:匹配单词字符,即a-z、A-Z、0-9、_
\W:匹配非单词字符

import re
#.匹配任意单个字符(不包括换行符)
one='123a'
res=re.match('.',one)
print(res.group())

#[]:匹配字符集,区间中的集合,可匹配其中任意一个字符
two='8'
res1=re.match('[0-9]',two)   #匹配1-9之间的数字
print(res1.group())

res2=re.match('[0,1,8,9]',two)  #匹配0、1、8、9之间的数字
print(res2.group())

two_2='Hello Python'
print(re.match('[hH]',two_2).group())    #匹配小写或大写H

#\d:匹配数字,即0-9,可以表示为[0-9]
three='天空1号发射成功'
print(re.match('天空\d',three).group())
print(re.search('\d',three).group())

表示数字

*:匹配前一个字符出现0次或者无限次,即可有可无
+:匹配前一个字符出现1次或者无限次,即至少有1次
?:匹配前一个字符出现1次或者0次,即要么有1次,要么没有
{m}:匹配前一个字符出现m次
{m,}:匹配前一个字符至少出现m次
{m,n}:匹配前一个字符出现从m到n次

需求1:匹配一个字符串第一个字母是大写,后面的字母必须是小写或者没有

print(re.match('[A-Z][a-z]*','Mn').group())
print(re.match('[A-Z][a-z]*','Msdfsg').group())
print(re.match('[A-Z][a-z][a-z]','Msdfs').group())

Mn
Msdfsg
Msd

需求2 匹配一个变量名,

print(re.match(r'[a-zA-Z_]+[\w]*','name1').group())
print(re.match(r'[a-zA-Z_]+[\w]*','_name1').group())
print(re.match(r'[a-zA-Z_]+[\w]*','2_name1'))

name1
_name1
None

需求3:匹配0-99之间的任意一个数字

print(re.match('[0-9]?[0-9]','88').group())
print(re.match('[0-9]?[0-9]','8').group())
print(re.match('[0-9]?[0-9]','08').group())
print(re.match('[0-9]?[0-9]','888').group())

88
8
08
88

需求4:匹配密码(8-20位,可以是大小写的字母、数字、下划线)

print(re.match('[a-zA-Z0-9_]{8,20}','12345678').group())
print(re.match('[a-zA-Z0-9_]{8}','12345678').group())

12345678
12345678

匹配边界

^:表示以什么开头
$:表示以什么结尾
\b:表示匹配单词的边界
|:或者

需求5:匹配163的邮箱地址,邮箱的用户名包含6~18个字符,可以是数字、字母、下划线、但是必须以字母开头,.com结尾

emails='''
    awhaldc@163.com
asdasdfddasdfascvdfgbdfgdsds@163.com
afa_@163.com
awhaldc666@163.comax
q112dsdasdas@163.com
aaaa_____@qq.com
aaaa____@qq.com
'''
print(re.search('^[a-zA-Z][\w]{5,17}@163\.com$',emails,re.MULTILINE).group())

q112dsdasdas@163.com

需求6:匹配单词的边界

print(re.search(r'.*\bbeijing\b','I Love beijing too'))
print(re.search(r'.*\bbeijing\b','I Love beijing1 too'))

print(re.search(r'.*beijing','I Love beijing too'))

I Love beijing
None
I Love beijing

三、re模块的高级用法

re.findall(pattern,string)

1、findall:pattern在string里所有的非重复匹配,返回一个迭代器iterator保存了匹配对象

需求7:匹配所有符合以下条件的邮箱

163的邮箱地址,

邮箱的用户名包含6~18个字符,

可以是数字、字母、下划线、

但是必须以字母开头,

.com结尾

import re

emails='''
awhaldc@163.com
asdasdfddasdfascvdfgbdfgdsds@163.com
afa_@163.com
112dsdasdas@163.com
aaaa_____@126.com
aaaa____@163.com
'''

#findall:pattern在string里所有的非重复匹配,返回一个迭代器iterator保存了匹配对象
list=re.findall(r'(^[a-zA-Z][\w]{5,17}@(163|126).com$)',emails,re.MULTILINE)

print(list)
for email in list:
    print(email[0])

[(‘awhaldc@163.com’, ‘163’), (‘aaaa_____@126.com’, ‘126’), (‘aaaa____@163.com’, ‘163’)]
awhaldc@163.com
aaaa_____@126.com
aaaa____@163.com

2、sub:将匹配到的字符串,再次进行操作

需求8:匹配一个数字,把匹配的数字进行家1,返回

def add(result):    #result是一个匹配对象
    str_num=result.group()
    num=int(str_num)+1
    return str(num)

print(re.sub(r'\d+',add,'a=111'))

a=112

3、split:切割匹配成功的字符串

line='hello,world,china.'
print(re.split(r'\W+',line))

[‘hello’, ‘world’, ‘china’, ‘’]

需求9:以冒号或者空格,切割字符串

print(re.split(r':| ','info:kobe 18 beijing'))

[‘info’, ‘kobe’, ‘18’, ‘beijing’]

四、贪婪和非贪婪模式

什么是贪婪模式?
python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符
什么是非贪婪模式?
与贪婪模式相反,总是尝试匹配尽可能少的字符,可以使用、?、+、{m,n}加上?,使贪婪模式变为非贪婪模式*

需求9:非贪婪模式,需求:把电话和电话的描述信息尽可能的分开,只能用正则表达式

line2='this is my phone:188-1111-6666'
#非贪婪模式,需求:把电话和电话的描述信息尽可能的分开,只能用正则表达式
result=re.match(r'(.+?)(\d+-\d+-\d+)',line2)
print(result.group(1))
print(result.group(2))

this is my phone:
188-1111-6666

总结

到此这篇关于python正则表达式用法超详细讲解的文章就介绍到这了,更多相关python正则表达式用法内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python正则表达式匹配字符串中的数字

    1.使用"\d+"匹配全数字 代码: import re zen = "Arizona 479, 501, 870. Carlifornia 209, 213, 650." m = re.findall("\d+", zen) print(m) 结果: ['479', '501', '870', '209', '213', '650'] 但是上述这种方式也会引入非纯数据,例子如下: import re zen = "Arizona 47

  • Python中正则表达式的详细教程

    1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑. 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了. 正则表达式的大致匹配过程是:     1.依次拿出表达式和文本中的字符比较,     2.如果每

  • python的正则表达式re模块的常用方法

    1.re的简介 使用python的re模块,尽管不能满足所有复杂的匹配情况,但足够在绝大多数情况下能够有效地实现对复杂字符串的分析并提取出相关信息.python 会将正则表达式转化为字节码,利用 C 语言的匹配引擎进行深度优先的匹配. 复制代码 代码如下: import re print re.__doc__ 可以查询re模块的功能信息,下面会结合几个例子说明. 2.re的正则表达式语法 正则表达式语法表如下: 语法 意义 说明 "." 任意字符 "^" 字符串开始

  • Python匹配中文的正则表达式

    正则表达式并不是Python的一部分.正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大.得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同:但不用担心,不被支持的语法通常是不常用的部分. Python正则表达式简介 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 P

  • PYTHON正则表达式 re模块使用说明

    首先,运行 Python 解释器,导入 re 模块并编译一个 RE: #!python Python 2.2.2 (#1, Feb 10 2003, 12:57:01) >>> import re >>> p = re.compile('[a-z]+') >>> p <_sre.SRE_Pattern object at 80c3c28> 现在,你可以试着用 RE 的 [a-z]+ 去匹配不同的字符串.一个空字符串将根本不能匹配,因为 +

  • python正则表达式从字符串中提取数字的思路详解

    python从字符串中提取数字 使用正则表达式,用法如下: ## 总结 ## ^ 匹配字符串的开始. ## $ 匹配字符串的结尾. ## \b 匹配一个单词的边界. ## \d 匹配任意数字. ## \D 匹配任意非数字字符. ## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符). ## x* 匹配0次或者多次 x 字符. ## x+ 匹配1次或者多次 x 字符. ## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次. ## (a|b|c) 要么匹配

  • Python 匹配任意字符(包括换行符)的正则表达式写法

    想使用正则表达式来获取一段文本中的任意字符,写出如下匹配规则: (.*) 结果运行之后才发现,无法获得换行之后的文本.于是查了一下手册,才发现正则表达式中,"."(点符号)匹配的是除了换行符"\n"以外的所有字符. 以下为正确的正则表达式匹配规则: ([\s\S]*) 同时,也可以用 "([\d\D]*)"."([\w\W]*)" 来表示. Web技术之家_www.waweb.cn 在文本文件里, 这个表达式可以匹配所有的英文

  • python利用正则表达式提取字符串

    前言 正则表达式的基础知识就不说了,有兴趣的可以点击这里,提取一般分两种情况,一种是提取在文本中提取单个位置的字符串,另一种是提取连续多个位置的字符串.日志分析会遇到这种情况,下面我会分别讲一下对应的方法. 一.单个位置的字符串提取 这种情况我们可以使用(.+?)这个正则表达式来提取. 举例,一个字符串"a123b",如果我们想提取ab之间的值123,可以使用findall配合正则表达式,这样会返回一个包含所以符合情况的list. 代码如下: import re str = "

  • python正则表达式re模块详细介绍

    本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以是Unicode字符,这点不用担心,python会处理地和Ascii字符一样漂亮. 正则表达式使用反斜杆(\)来转义特殊字符,使其可以匹配字符本身,而不是指定其他特殊的含义.这可能会和python字面意义上的字符串转义相冲突,这也许有些令人费解.比如,要匹配一个反斜杆本身,你也许要用'\\\\'来做为正则表达式的字符串,因为正则表达式要是\\,而字符串里,每个反斜杆都要写成\\. 你也可以在字符串前加上

  • 比较详细Python正则表达式操作指南(re使用)

    就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.使用这个小型语言,你可以为想要匹配的相应字符串集指定规则:该字符串集可能包含英文语句.e-mail地址.TeX命令或任何你想搞定的东西.然後你可以问诸如"这个字符串匹配该模式吗?"或"在这个字符串中是否有部分匹配该模式呢?".你也可以使用 RE 以各种方式来修改或分割字符串. 正则表达式模式被编译成一系列的字节码,然後由用 C

随机推荐