正则表达式之文本模式的匹配和查找

1、需求

我们想要按照特定的文本模式进行匹配或查找。

2、解决方案

如果想要匹配的只是简单的文字,那么通常只需要用基本的字符串方法就可以了,比如str.find()、str.endswith()、str.startswith()或类似函数。

示例:

text='mark ,帅哥,18,183 帅,mark'
print(text=='mark')
print(text.startswith('mark'))
print(text.startswith('mark'))
print(text.find('帅哥'))

结果:

False
True
True
6

如果更为复杂的匹配则需要使用正则表达式以及re模块。为了说明使用正则表达式的基本流程,假设我们想匹配以数字形式构成的日期,比如"11/27/2018"。示例如下:

import re
text1='11/27/2018'
text2='Nov 27, 2018'
if re.match(r'\d+/\d+/\d+',text1):
  print('符合模型:数字/数字/数字')
else:
  print('不符合模型:数字/数字/数字')

if re.match(r'\d+/\d+/\d+',text2):
  print('符合模型:数字/数字/数字')
else:
  print('不符合模型:数字/数字/数字')

运行结果:

符合模型:数字/数字/数字
不符合模型:数字/数字/数字

如果打算针对同一模型做多次匹配,那么通常会先将正则表达式模式预编译成一个模式对象。

例如:

import re
text1='11/27/2018'
text2='Nov 27, 2018'
datepat=re.compile(r'\d+/\d+/\d+')
if datepat.match(text1):
  print('符合模型:数字/数字/数字')
else:
  print('不符合模型:数字/数字/数字')

if datepat.match(text2):
  print('符合模型:数字/数字/数字')
else:
  print('不符合模型:数字/数字/数字')

结果:

符合模型:数字/数字/数字
不符合模型:数字/数字/数字

match()方法总是尝试在字符串的开头找到匹配项。如果想针对整个文本搜索出所有的匹配项,那么就应该使用findall()方法,例如:

import re
text='今天是 11/27/2018,昨天是11/26/2018'
datepat=re.compile(r'\d+/\d+/\d+')
print(datepat.findall(text))

运行结果:

['11/27/2018', '11/26/2018']

当定义正则表达式时,我们常会将部分模式用括号包起来的方式引入捕获组,捕获组通常简化后续对匹配文本的处理,因为每个组的内容都可以单独提取出来。findall()方法搜索整个文本并找出所有的匹配项然后将它们以列表的形式返回。如果想以迭代的方式找出匹配项,可以使用finditer()方法。

例如:

import re
#加入捕获组
datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)')
m=datepat.match('11/27/2018')
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.groups())
month,day,year=m.groups()
print(month)
print(day)
print(year)

print('*'*20)

text='今天是 11/27/2018,昨天是11/26/2018'
for month,day,year in datepat.findall(text):
  print('{}-{}-{}'.format(year,month,day))

print('*'*20)

for m in datepat.finditer(text):
  print(m.groups())

结果:

11/27/2018
11
27
2018
('11', '27', '2018')
11
27
2018
********************
2018-11-27
2018-11-26
********************
('11', '27', '2018')
('11', '26', '2018')

3、分析

本节主要介绍了re模块对文本匹配和搜索的基本功能,首先用re.compile()对模式进行编译,然后使用想match()、findall()、finditer()这样的方法做匹配和搜索。

当指定模式时我们通常会使用原始字符串,例如:

r'(\d+)/(\d+)/(\d+)'

这样的字符串不会对反斜字符转义,这在正则表达式中非常有用。否则,我们需要用双反斜杠线来标识一个单独的'',例如:

'(\\d+)/(\\d+)/(\\d+)'

请注意match()方法只会检查字符的开头,有可能出现的匹配的结果并不是你想要的,例如:

import re
#加入捕获组
datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)')
m=datepat.match('11/27/2018xxxx')
print(m)

结果:

<re.Match object; span=(0, 10), match='11/27/2018'>

如果想要精确匹配,可以加一个结束标记:$

import re
#加入捕获组
datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)$')
m1=datepat.match('11/27/2018xxxx')
m2=datepat.match('11/27/2018')
print(m1)
print(m2)

结果:

None
<re.Match object; span=(0, 10), match='11/27/2018'>

如果只是执行简单的文本匹配和搜索操作,可以省略编译步骤。
如果打算执行很多匹配或查找操作的话,通常需要先将模式编译然后重复使用。模块级的函数会对最近编译过的模式做缓存处理,并且比较省步骤。

总结

以上所述是小编给大家介绍的正则表达式之文本模式的匹配和查找,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我们网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

(0)

相关推荐

  • 学习Java正则表达式(匹配、替换、查找)

    本文为大家分享了Java正则表达式的匹配.替换.查找和切割操作,有兴趣的朋友可以参考一下 import java.util.ArrayList; import java.util.regex.Matcher; import java.util.regex.Pattern; public class test { public static void main(String[] args) { getStrings(); //用正则表达式获取指定字符串内容中的指定内容 System.out.pri

  • Java基于正则表达式实现查找匹配的文本功能【经典实例】

    本文实例讲述了Java基于正则表达式实现查找匹配的文本功能.分享给大家供大家参考,具体如下: REMatch.java: package reMatch; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * Created by Frank */ public class REMatch { public static void main(String[] args) { String patt = "Q[^

  • Go语言正则表达式用法实例小结【查找、匹配、替换等】

    本文实例讲述了Go语言正则表达式用法.分享给大家供大家参考,具体如下: Go语言的正则表达式使用很简单,示例代码: 复制代码 代码如下: package test import (     "fmt"     "regexp" ) func RegixBase() {     //findTest()     //findIndexTest()     //findStringTest()     //findChinesString()     //findNum

  • Java正则表达式实现在文本中匹配查找换行符的方法【经典实例】

    本文实例讲述了Java正则表达式实现在文本中匹配查找换行符的方法.分享给大家供大家参考,具体如下: 默认情况下,正则表达式 ^ 和 $ 忽略行结束符,仅分别与整个输入序列的开头和结尾匹配.如果激活 MULTILINE 模式,则 ^ 在输入的开头和行结束符之后(输入的结尾)才发生匹配.处于 MULTILINE 模式中时,$ 仅在行结束符之前或输入序列的结尾处匹配. NLMatch.java: package nlMatch; import java.util.regex.Pattern; /**

  • 正则表达式匹配,替换,查找

    上篇文章给大家介绍了Java正则表达式匹配,替换,查找,切割的方法,接下来,通过本篇文章给大家介绍js 正则匹配.查找与替换,具体内容请看下文. js 正则匹配.查找与替换 RegExp对象RegExp对象表示正则表达式,它是对字符串执行模式匹配的强大工具.直接量语法/pattern/attributes创建RegExp对象的语法:newRegExp(pattern,attributes);参数参数patter... RegExp 对象 RegExp 对象表示正则表达式,它是对字符串执行模式匹配

  • JAVA中正则表达式匹配,替换,查找,切割的方法

    正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组 常见的截取规则: str.split("\\.")按照.来截取 str.split(" ")按照空格截取 str.split("cc+")按照c字符来截取,2个c或以上 str.split((1)\\.+)按照字符串中含有2个字符或以上的地方截取(1)表示分组为1 截取的例子; 按照

  • 正则表达式之文本模式的匹配和查找

    1.需求 我们想要按照特定的文本模式进行匹配或查找. 2.解决方案 如果想要匹配的只是简单的文字,那么通常只需要用基本的字符串方法就可以了,比如str.find().str.endswith().str.startswith()或类似函数. 示例: text='mark ,帅哥,18,183 帅,mark' print(text=='mark') print(text.startswith('mark')) print(text.startswith('mark')) print(text.fi

  • 正则表达式常见的4种匹配模式小结

    目录 0.写在前面 1.不区分大小写模式 2.点号通配模式 3.多行匹配模式 4.注释模式 5.写在最后 0.写在前面 今天一起来学习下正则中的匹配模式,所谓的匹配模式,就是指正则中的一些 改变元字符匹配行为 的方式,比如匹配时不区分英文字母的大小写. 还记得我们在第二篇文章中学过的贪婪模式.非贪婪模式和独占模式吗,这些模式会改变正则中量词的匹配行为,今天来看一些和量词无关的匹配模式,一共有4种,分别是不区分大小写模式.点号通配模式.多行匹配模式.注释模式. 1.不区分大小写模式 顾名思义,不区

  • Centos7 Shell编程之正则表达式、文本处理工具详解

    目录 1. 正则表达式 1.1 常规匹配 1.2 常用特殊字符 2. 文本处理工具 2.1 cut 2.2 awk 1. 正则表达式 正则表达式可以很灵活的提供各种模糊匹配的筛选规则.常被用来检索.替换那些符合某个模式的文本.grep.sed.awk等文本处理工具都支持通过正则表达式进行模式匹配 1.1 常规匹配 一串不包含特殊字符的正则表达式,匹配包含它自己的字符,例如: [root@bigdata001 ~]# cat /etc/passwd | grep root root:x:0:0:r

  • 正则表达式、分组、子匹配(子模式)、非捕获子匹配(子模式)

    前面我们知道正则表达式有很多元字符表示匹配次数(量词),都是可以重复匹配前面出现的单个字符次数.有时候,我们可能需要匹配一组多个字符一起出现的次数.这个时候,我们需要分组了.就是用小括号来括起这些字符,指定子表达式(也叫做分组).然后你就可以指定这个子表达式的重复次数了,你也可以对子表达式进行其它一些操作.这个时候,可以把括号中一组字符,看作一个整体了. 分组模式举例说明 如:查找字符串中,连续出现多个win字符串的字符.可以这样完 <?php $str = "this is win wi

  • 正则表达式教程之模式修正符使用介绍

    之前我们给大家介绍了正则表达式中的定界符.原子和元字符,那么我们关于正则表达式教程的基本语法就剩下了正则表达式中的模式修正符.本节会向大家介绍模式修正符的概念.模式修正符的构成,以及结合实例的模式修正符的演示,大家在学习完本节内容之后,就完全可以读懂正则表达式了. 什么是模式修正符? 1, 模式修正符就是几个字母,我们在每个正则表达式中可以一次使用一个,也可以连续使用多个,每一个具一定的意义. 2, 模式修正符是对整个正则表达式调优使用,也可以说是对正则表达式功能的扩展. 还记得正则表达式的那个

  • JavaScript 正则表达式中global模式的特性

    返回 Boolean 值,指出正则表达式使用的global 标志 (g) 的状态.默认值为 false.只读. rgExp.global 必选项 rgExp 参数是正则表达式对象. 如果正则表达式设置了global 标志,那么global 属性返回 true,否则返回 false. 使用 global 标志表明在被查找的字符串中搜索操作将查找所有符合的项,而不仅仅是第一个.这也被称为全局匹配. 一直不是很清楚javascript的global到底表现在哪些方面,所以今天特地做了几个测试: var

  • 详解正则表达式的贪婪模式与非贪婪模式

    什么是正则表达式的贪婪与非贪婪匹配 如:String str="abcaxc"; Patter p="ab*c"; 贪婪匹配:正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配.如上面使用模式p匹配字符串str,结果就是匹配到:abcaxc(ab*c). 非贪婪匹配:就是匹配到结果就好,就少的匹配字符.如上面使用模式p匹配字符串str,结果就是匹配到:abc(ab*c). 下面通过实例代码看下正则表达式的贪婪模式与非贪婪模式,具体内容如下所示: 贪婪模式:能匹配

  • 使用Python正则表达式操作文本数据的方法

    什么是正则表达式 正则表达式,是简单地字符的序列,可指定特定的搜索模式.正则表达式已存在很长一段时间,并且它本身就是计算机科学的一个领域. 在 Python中,使用Python的内置re模块处理正则表达式操作 .在本节中,我将介绍创建正则表达式并使用它们的基础知识.您可以使用以下步骤实现正则表达式: 指定模式字符串. 将模式字符串编译为正则表达式对象. 使用正则表达式对象在字符串中搜索模式. 可选:从字符串中提取匹配的模式. 编写和使用正则表达式 在Python中创建正则表达式的第一步是导入re

  • 详解javascript 正则表达式之分组与前瞻匹配

    本文主要讲解javascript 的正则表达式中的分组匹配与前瞻匹配的,需要对正则的有基本认识,本人一直对两种匹配模棱不清.所以在这里总结一下,如有不对,还望大神指点. 1.分组匹配: 1.1捕获性分组匹配 () 2.2非捕获性分组匹配 (?:) 2前瞻匹配: 2.1正向前瞻匹配: (?=表达式) 后面一定要匹配有什么 2.2反向前瞻匹配: (?!表达式) 后面一定不能要有什么 1.1.捕获性分组匹配 () var str1 = "holle word 123456 can 12s a 123

  • Python字符串及文本模式方法详解

    一.你想在字符串中搜索和匹配指定的文本模式 遗漏点:re模块其实也是帮助我们进行字符串处理的重要工具,我之前总是想着用内建的函数来处理,其实如果是复杂的文本和数据结构,re模块能帮助我们处理很多信息. 对于简单的字面模式,直接使用 str.replace() 方法即可,比如: >>> text = 'yeah, but no, but yeah, but no, but yeah' >>> text.replace('yeah', 'yep') 'yep, but no

随机推荐