python 正则表达式学习小结

  在Python中实现正则的方式是通过re(regular expression的缩写)模块来实现的,你可以调用re模块的各种方法来实现不同的功能,下面我们就来说下,在Python中通过re模块可以调用那些方法,以及这些方法的作用都是什么;还有就是正则的实例以及各种特殊符号的含义:

  1、re.sub和replace:

    sub的全拼是substitute,也就是替换的意思;既然知道是替换了,那就很容易用到实例中了,其实replace也是替换的意思,只不过它们的用法不太相同,下面用一个例子来详细说明下它们的异同之处:

>>> import re
>>> str1 = 'Hello 111 is 222'
>>> str2 = str1.replace('111','222')
>>> print(str2)
Hello 222 is 222
>>> 

   这是一个简单的例子,如果是下面这种情形,把所有的数字都换成222,那么用replace实现起来就比较麻烦,而用re模块的sub方法实现起来就比较的简单:(如果是更复杂的操作,使用replace可能就无法实现了。)

>>> import re
>>> str1 = 'Hello 123 is 456'
>>> str2 = re.sub('\d+','222',str1)
>>> print(str2)
Hello 222 is 222
>>> 

  2、re.search()和re.match():

    match: 只从字符串的开始与正则表达式匹配,匹配成功返回matchobject,否则返回none.

    search:将字符串的所有字串尝试与正则表达式匹配,如果所有的字串都没有匹配成功则返回none,否则返回matchobject.

    下面这个例子说明了match和search的异同点,也说明了,在实际的应用中,search用的还是比较多的:

import re
str = 'helloword,i am alex'
if not re.match('word',str):
print('cannot match')
print(re.match('hello',str1).group())
print(re.search('word',str1).group())
#显示结果
cannot match
hello
word 

  3、re.split:

    在Python中,如果想对一个字符串进行分割的话,只需要调用str的split方法就可以实现,但是这个split只能根据某个字符来进行分割的操作,如果要同时指定多个字符来进行分割的话,它就无法实现了。

    好在re模块也提供了split这个方法来对字符串进行分割,而且这个方法更加强大,可以同时根据多个字符进行分割的操作,下面来看分别看一下str的split和re的split有什么不同的地方:

str1 = 'helloword,i;am\nalex'
str2 = str1.split(',')
print(str2)
import re
str3 = re.split('[,|;|\n]',str1)
print(str3)
#下面是不同的输出结果
['helloword', 'i;am\nalex']
['helloword', 'i', 'am', 'alex'] 

    从中我们可以看出,上面说的真实性。

  4、findall:

    findall方法基本上都是和compile方法同时出现的,它们的用法是:

      先由compile将一个正则表达式的字符串形式转换成pattern实例,然后再使用patte实例调用findall方法生成match对象来获取结果,在将它们结合的实例之前,我们先来看下正则表达式中预设的特殊字符含义:

    \d 匹配任何十进制数;它相当于类 [0-9]。

    \D 匹配任何非数字字符;它相当于类 [^0-9]。

    \s 匹配任何空白字符;它相当于类 [ "t"n"r"f"v]。

    \S 匹配任何非空白字符;它相当于类 [^ "t"n"r"f"v]。

    \w 匹配任何字母数字字符;它相当于类 [a-zA-Z0-9_]。

    \W 匹配任何非字母数字字符;它相当于类 [^a-zA-Z0-9_]。

   看完这几个特殊字符的含义,我们再举一个例子来说明一下上面的论点:

import re
str1 = 'asdf12dvdve4gb4'
pattern1 = re.compile('\d')
pattern2 = re.compile('[0-9]')
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print('mch1:\t%s'% mch1)
print('mch2:\t%s'% mch2)
#输出结果
mch1: ['1', '2', '4', '4']13 mch2: ['1', '2', '4', '4'] 

   上面的两个实例都可以很好的阐述上面的论点,而且也表明了,特殊字符\d确实跟[0-9]是一样的,通过输出结果就可以看出,那么如果你不想把每个数字都拆分为一个元素放在列表中,而是想把12整体的输出出来,那么你可以这样做:(就是在\d的后面加上个+号来实现的,这里的+号表示的是把一个或者多个相连的十进制数字整体输出)

import re
str1 = 'asdf12dvdve4gb4'
pattern1 = re.compile('\d+')
pattern2 = re.compile('[0-9]')
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print('mch1:\t%s'% mch1)
print('mch2:\t%s'% mch2)
#输出结果
mch1: ['12', '4', '4']
mch2: ['1', '2', '4', '4'] 

   我们再举一个小例子,这个例子是结合特殊字符和re的sub功能实现一下把字符串中所有的空格都给去掉:

import re
str1 = 'asd \tf12d vdve4gb4'
new_str = re.sub('\s*','',str)
print(new_str)
#输出结果
asdf12dvdve4gb4 

  5、元字符:

    我们通常所说的二元字符有;2元字符:. ^ $ * + ? { } [ ] | ( ) \

    我们首先考察的元字符是"[" 和 "]"。它们常用来指定一个字符类别,所谓字符类别就是你想匹配的一个字符集。字符可以单个列出,也可以用“-”号分隔的两个给定
字符来表示一个字符区间。例如,[abc] 将匹配"a", "b", 或 "c"中的任意一个字符;也可以用区间[a-c]来表示同一字符集,和前者效果一致。如果你只想匹配小写字母,那么 RE 应写成 [a-z].元字符在类别里并不起作用。例如,[akm$]将匹配字符"a", "k", "m", 或 "$" 中的任意一个;"$"通常用作元字符,但在字符类别里,其特性被除去,恢复成普通字
符。

    []:元字符[]表示字符类,在一个字符类中,只有字符^、-、]和\有特殊含义。字符\仍然表示转义,字符-可以定义字符范围,字符^放在前面,表示非.(这个在上面的特殊字符示例中也有提现),

    + 匹配+号前内容1次至无限次
    ? 匹配?号前内容0次到1次
    {m} 匹配前面的内容m次
    {m,n} 匹配前面的内容m到n次

    下面通过一个小例子,来阐述一下上面的字符在元字符[]中的使用:(在下面的这个例子中,要注意的有两点:一是在\d+后面的?号的含义,二是在匹配的前面加上了一个字符r,其实在这个示例中,加与不加都可以显示一样的结果)

>>> import re
>>> print(re.findall(r"a(\d+?)","a123b"))
['1']
>>> print(re.findall(r"a(\d+)","a123b"))
['123']
>>>

以上所述是小编给大家介绍的python 正则表达式学习小结,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我们网站的支持!

(0)

相关推荐

  • python利用正则表达式提取字符串

    前言 正则表达式的基础知识就不说了,有兴趣的可以点击这里,提取一般分两种情况,一种是提取在文本中提取单个位置的字符串,另一种是提取连续多个位置的字符串.日志分析会遇到这种情况,下面我会分别讲一下对应的方法. 一.单个位置的字符串提取 这种情况我们可以使用(.+?)这个正则表达式来提取. 举例,一个字符串"a123b",如果我们想提取ab之间的值123,可以使用findall配合正则表达式,这样会返回一个包含所以符合情况的list. 代码如下: import re str = "

  • Python利用正则表达式匹配并截取指定子串及去重的方法

    本文实例讲述了Python利用正则表达式匹配并截取指定子串及去重的方法.分享给大家供大家参考.具体如下: import re pattern=re.compile(r'\| (\d+) \| (\d+) \|') numset=set() all=''' | 29266795 | 533 | | 29370116 | 533 | | 29467495 | 533 | | 29500404 | 533 | | 29500622 | 533 | | 29515964 | 530 | | 295160

  • Python正则表达式如何进行字符串替换实例

    Python正则表达式在使用中会经常应用到字符串替换的代码.有很多人都不知道如何解决这个问题,下面的代码就告诉你其实这个问题无比的简单,希望你有所收获. 1.替换所有匹配的子串用newstring替换subject中所有与正则表达式regex匹配的子串 result, number = re.subn(regex, newstring, subject) 2.替换所有匹配的子串(使 用正则表达式对象) rereobj = re.compile(regex) result, number = re

  • Python 正则表达式的高级用法

    对于Python来说,学习正则就要学习模块re的使用方法.本文将展示一些大家都应该掌握的高级技巧. 编译正则对象 re.compile函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象.该对象拥有一系列方法用于正则表达式匹配和替换.用法上略有区别,举个例子, 匹配一个字符串可用如下方式: 如果使用compile,将变成: 为什么要这么用呢?其实就是为了提高正则匹配的速度,重复利用正则表达式对象.我们对比一下2种方式的效率: 可以看到第二种方式要快很多.在实际的工作中你会发现越多的使用编

  • python的正则表达式re模块的常用方法

    1.re的简介 使用python的re模块,尽管不能满足所有复杂的匹配情况,但足够在绝大多数情况下能够有效地实现对复杂字符串的分析并提取出相关信息.python 会将正则表达式转化为字节码,利用 C 语言的匹配引擎进行深度优先的匹配. 复制代码 代码如下: import re print re.__doc__ 可以查询re模块的功能信息,下面会结合几个例子说明. 2.re的正则表达式语法 正则表达式语法表如下: 语法 意义 说明 "." 任意字符 "^" 字符串开始

  • Python正则表达式匹配ip地址实例

    本文实例讲述了正则表达式匹配ip地址实例.代码结构非常简单易懂.分享给大家供大家参考. 主要实现代码如下: import re reip = re.compile(r'(?<![\.\d])(?:\d{1,3}\.){3}\d{1,3}(?![\.\d])') for ip in reip.findall(line): print "ip>>>", ip PS:关于正则,这里再为大家推荐2款非常方便的正则表达式工具供大家参考使用: JavaScript正则表达式

  • python正则表达式之作业计算器

    作业:计算器开发 实现加减乘除及拓号优先级解析 用户输入 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )等类似公式后,必须自己解析里面的(),+,-,*,/符号和公式,运算后得出结果,结果必须与真实的计算器所得出的结果一致 一.说明: 有一点bug就是不能计算幂次方,如:'6**6'会报错 该计算器思路: 1.没用使用递归,先找出并计算所有括号里的公式,再计算乘除

  • Python匹配中文的正则表达式

    正则表达式并不是Python的一部分.正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大.得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同:但不用担心,不被支持的语法通常是不常用的部分. Python正则表达式简介 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 P

  • Python中正则表达式的用法实例汇总

    正则表达式是Python程序设计中非常实用的功能,本文就常用的正则表达式做一汇总,供大家参考之用.具体如下: 一.字符串替换 1.替换所有匹配的子串 用newstring替换subject中所有与正则表达式regex匹配的子串 result, number = re.subn(regex, newstring, subject) 2.替换所有匹配的子串(使用正则表达式对象) reobj = re.compile(regex) result, number = reobj.subn(newstri

  • Python 中文正则表达式笔记

    从字符串的角度来说,中文不如英文整齐.规范,这是不可避免的现实.本文结合网上资料以及个人经验,以 python 语言为例,稍作总结.欢迎补充或挑错. 一点经验 可以使用 repr()函数查看字串的原始格式.这对于写正则表达式有所帮助. Python 的 re模块有两个相似的函数:re.match(), re.search .两个函数的匹配过程完全一致,只是起点不同.match只从字串的开始位置进行匹配,如果失败,它就此放弃:而search则会锲而不舍地完全遍历整个字串中所有可能的位置,直到成功地

  • Python正则表达式实现截取成对括号的方法

    本文实例讲述了Python正则表达式实现截取成对括号的方法.分享给大家供大家参考,具体如下: strs = '1(2(3(4(5(67)6)7)8)9)0' reg1 = re.compile('([()])∗') #一对括号 reg2 = re.compile('([()]|\([()]∗)*\)') #两对括号 reg3 = re.compile('([()]|\([()]∗|([()]|\([()]∗)*\))*\)') #三层 函数 #匹配成对括号正则表达式 def getReg(sel

  • PYTHON正则表达式 re模块使用说明

    首先,运行 Python 解释器,导入 re 模块并编译一个 RE: #!python Python 2.2.2 (#1, Feb 10 2003, 12:57:01) >>> import re >>> p = re.compile('[a-z]+') >>> p <_sre.SRE_Pattern object at 80c3c28> 现在,你可以试着用 RE 的 [a-z]+ 去匹配不同的字符串.一个空字符串将根本不能匹配,因为 +

随机推荐