正则表达式分组与引用的使用

目录
  • 0.写在前面
  • 1.分组与编号
  • 2.不保存子组
  • 3.分组引用
  • 4.查找与替换
    • 查找
    • 替换
  • 5.在文本编辑器中使用
    • 查找
    • 替换
  • 6.写在最后

0.写在前面

今天我们来讲下正则中的分组与引用,其实在第一篇文章中,我们在实战环节就已经用到分组这个功能了,回顾下 IPv4 地址的正则表达式:

代码如下:

^([1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(\.(0|[1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}$

可以简写下:

代码如下:

^(条件1)(\.(条件2)){3}$

可以看到在表达式中出现了几对括号,为什么要用括号把表达式括起来,这些括号有什么作用呢,我们一起来看下。

1.分组与编号

括号在正则中可以用于分组,被括号括起来的部分可以称为子表达式,会被保存成一个子组。

举个栗子,有一个日期时间 2021-06-01 13:14:21,我们想要提取出其中的日期和时间,就要用括号对日期和时间进行分组,如下图所示:

可以看到图中有两个分组,日期分组是第1个,时间分组是第2个,我们以左括号的位置,来表示分组的标号,从1开始,第几个左括号,就是第几个分组。

上面的栗子,我们再分的细一点,我们要分别提取其中的年、月、日,时、分、秒,如下图所示:

可以看到日期的分组编号是 1,时间分组的编号是 5,年月日的分组编号分别是 2,3,4,时分秒的分组编号分别是 6,7,8。

2.不保存子组

分组是有一定的性能消耗的,在有些情况下,我们只是单纯的想要分组,后续并不想使用它,就可以在左括号的后面加上 ?: 表示不保存子组。

比如,需要是使用正则匹配目标字符串中的15位或18位数字:

功能 正则 示例
保存子组 (正则) \d{15}(\d{3})?
不保存子组 (?:正则) \d{15}(?:\d{3})?

我们之前讲过的 IPv4 正则表示就可以优化下:

代码如下:

^(?:[1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:0|[1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}$

3.分组引用

上面讲完了分组,我们来看下如何来引用分组,大部分语言都是用 反斜杠 + 编号 的方式,个别的比如 JavaScript语言,使用的是 美元符号 + 编号 的方式:

编程语言 查找时引用方式 替换时引用方式
Python \number 如 \1 \number 如 \1
Go 官方包不支持 官方包不支持
Java \number 如 \1 $number 如 $1
JavaScript $number 如 $1 $number 如 $1
PHP \number 如 \1 \number 如 \1
Ruby \number 如 \1 \number 如 \1

4.查找与替换

查找

到这里我们已经学完了分组与引用的知识,一起来实践下,有这样一个需求,在一个目标字符串中,查找两个重复出现的单词。

还没有学到单词边界,我们先用 \w{2,} 来表示出现的单词,重复的单词就是 (\w{2,} \1),看下结果:

替换

上面的内容,我们讲到了日期的分组,来替换下:

对应的 Python 代码如下:

import re

test_str = "2021-06-01 13:14:21"
regex = r"((\d{4})-(\d{2})-(\d{2})) ((\d{2}):(\d{2}):(\d{2}))"
subst = r"\2年\3月\4日 \6时\7分\8秒"
result = re.sub(regex, subst, test_str)
print(result)

输出:2021年06月01日 13时14分21秒

5.在文本编辑器中使用

正则表达式不仅可以在代码中使用,在文本编辑器中也是比较常用的,以 Sublime Text 3 举例来讲下正则的查找与替换,学完之后,会让你的工作事半功倍。

点击 Find -> Find 选项,或者使用快捷键 Ctrl + F 可以唤起查找功能:

点击 Find -> Replace 选项,或者使用快捷键 Ctrl + H 可以唤起替换功能:

查找

我们来实现一个查找邮箱的功能,此处的邮件正则只是简单演示使用,当点击 Find All 按钮后,可以看到邮箱都被找到了,此时如果点击 Ctrl + C 复制,可以把找到的邮箱单独粘贴出来:

替换

演示下我们上面讲过的替换例子:

怎么样,是不是很方便,几乎所有的主流编辑器都是支持正则的,学会了正则,对我们的工作帮助还是挺大的。

6.写在最后

最后在总结下上面讲到的内容:

正则表达式在线校验工具:https://regex101.com/

到此这篇关于正则表达式分组与引用的使用的文章就介绍到这了,更多相关正则表达式 分组与引用内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 浅谈正则表达式中的分组和引用实现方法

    问题 在外刊君读者群中看到有人提出这样的一个需求: 把字符串切成连续相同字符的正则怎么写?比如abbcccdddd切成a,bb,ccc,dddd 之前我对正则表达式也是略有研究,想尝试一下.其实我对正则表达式的学习基本完全来源于犀牛书的第10章,真正看懂这一章,我觉得操作正则表达式应该不在话下. 我的答案 先给出我的答案吧: 'abbccddd'.match(/(\w)\1*/g) // ["a", "bb", "cc", "ddd&q

  • 详解JavaScript正则表达式之分组匹配及反向引用

    语法 元字符:(pattern) 作用:用于反复匹配的分组 属性$1~$9 如果它(们)存在,用于得到对应分组中匹配到的子串 \1或$1 用于匹配第一个分组中的内容 \2或$2 用于匹配第一个分组中的内容 ... \9或$9 用于匹配第一个分组中的内容 用法示例 var reg = /(A+)((B|C|D)+)(E+)/gi;//该正则表达式有4个分组 //对应关系 //RegExp.$1 <-> (A+) //RegExp.$2 <-> ((B|C|D)+) //RegExp.

  • 正则表达式之分组的回溯引用问题

    正则表达式简介 正则表达式,又称规则表达式.(英语:Regular Expression,在代码中常简写为regex.regexp或RE),计算机科学的一个概念.正则表达式通常被用来检索.替换那些符合某个模式(规则)的文本. 许多程序设计语言都支持利用正则表达式进行字符串操作.例如,在Perl中就内建了一个功能强大的正则表达式引擎.正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的.正则表达式通常缩写成"regex",单数有regexp.regex,复数有r

  • 正则表达式分组与引用的使用

    目录 0.写在前面 1.分组与编号 2.不保存子组 3.分组引用 4.查找与替换 查找 替换 5.在文本编辑器中使用 查找 替换 6.写在最后 0.写在前面 今天我们来讲下正则中的分组与引用,其实在第一篇文章中,我们在实战环节就已经用到分组这个功能了,回顾下 IPv4 地址的正则表达式: 复制代码 代码如下: ^([1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(\.(0|[1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5

  • javascript 正则表达式分组、断言详解

     javascript 正则表达式分组.断言详解 提示:阅读本文需要有一定的正则表达式基础. 正则表达式中的断言,作为高级应用出现,倒不是因为它有多难,而是概念比较抽象,不容易理解而已,今天就让小菜通俗的讲解一下. 如果不用断言,以往用过的那些表达式,仅仅能获取到有规律的字符串,而不能获取无规律的字符串. 举个例子,比如html源码中有<title>xxx</title>标签,用以前的知识,我们只能确定源码中的<title>和</title>是固定不变的.因

  • 正则表达式分组实例详解

    正则表达式分组: 如果想匹配3个数字,正则表达式可以用如下写法: \d{3} 以上代码使用重复量词可以匹配3位数字. 但是在实际应用中,往往需要重复多个字符,例如我想重复ab两个字符,使用以下代码就不合适了,代码如下: ab{3} 以上正则表达式只能够重复3次b. 为了实现重复多个字符可以使用小括号来指定子表达式或者说分组来实现此功能,例如: (ab){3} 上面的正则就可以重复ab了. 所谓的分组就是使用小括号将一些项包括起来,使其成为独立的逻辑域,那么就可以像处理一个独立单元一样去处理小括号

  • Python正则表达式分组概念与用法详解

    本文实例讲述了Python正则表达式分组概念与用法.分享给大家供大家参考,具体如下: 正则表达式分组 分组就是用一对圆括号"()"括起来的正则表达式,匹配出的内容就表示一个分组.从正则表达式的左边开始看,看到的第一个左括号"("表示第一个分组,第二个表示第二个分组,依次类推,需要注意的是,有一个隐含的全局分组(就是0),就是整个正则表达式. 分完组以后,要想获得某个分组的内容,直接使用group(num)和groups()函数去直接提取就行. 例如:提取代码中的超链

  • Python正则表达式分组

    Python正则表达式分组 分组就是用一对圆括号“()”括起来的正则表达式,匹配出的内容就表示一个分组.从正则表达式的左边开始看,看到的第一个左括号“(”表示第一个分组,第二个表示第二个分组,依次类推,需要注意的是,有一个隐含的全局分组(就是0),就是整个正则表达式. 分完组以后,要想获得某个分组的内容,直接使用group(num)和groups()函数去直接提取就行. 例如:提取代码中的超链接中的文本 >>> s='<div><a href="https:/

  • PHP正则表达式的逆向引用与子模式分析

    正则表达式一个最重要的特性就是将匹配成功的模式的某部分进行存储供以后使用这一能力. 对一个正则表达式模式或部分模式两边添加圆括号()可以把这部分表达式存储到一个临时缓冲区中. 所捕获的每个子匹配都按照在正则表达式模式中从左至右所遇到的内容按顺序存储. 存储子匹配的缓冲区编号从1开始,连续编号至最大99个子表达式. 每个缓冲区都可以使用'\n'(或用'$n')访问,其中n为1至99的阿拉伯数字,用来按顺序标识特定缓冲区(子表达式). 例1:最简单最有用的例子是确定文字中连续出现两个相同单词的位置

  • 深入理解JS正则表达式---分组

    深入理解JS正则表达式---分组 之前写了一篇关于正则新手入门的文章,本以为对正则表达式相对比较了解 但是今天我又遇到了一个坑,可能是自己不够细心的原因吧,今天就着重和大家分享一下javascript正则表达式中的分组.如果你对JS正则表达式不够理解 可以点击这里了解更多. 分组在正则中用的还是比较广的,我所理解的分组 就是一对括号() ,每一对括号 就代表了一个分组,分组可以分为: •捕获性分组 •非捕获性分组 捕获性分组 捕获性分组会在 比如 match exec这样的函数中以第二项,第三项

  • PHP实现正则表达式分组捕获操作示例

    本文实例讲述了PHP实现正则表达式分组捕获操作.分享给大家供大家参考,具体如下: 经过测试,发现php正则表达式获取分组捕获是从$0开始,而平时工作中JavaScript中的正则是$1..$9 在提取项目代码中的汉字时,因为当时操作速度很快(赶时间),很担心当时.properties的文件{\d}的数字顺序搞错了: 1.可能从{1}开始,而不是从{0}开始 2.可能跳着写了,比如第一个是{0}第二个需要替换的地方却写着{2} 因为使用人工手动操作的,所以这种情况是难以避免,只能说减少误操作.写完

  • 浅谈JavaScript正则表达式分组匹配

    语法 元字符:(pattern) 作用:用于反复匹配的分组 属性$1~$9 如果它(们)存在,用于得到对应分组中匹配到的子串 \1或$1 用于匹配第一个分组中的内容 \2或$2 用于匹配第一个分组中的内容 ... \9或$9 用于匹配第一个分组中的内容 用法示例 var reg = /(A+)((B|C|D)+)(E+)/gi;//该正则表达式有4个分组 //对应关系 //RegExp.$1 <-> (A+) //RegExp.$2 <-> ((B|C|D)+) //RegExp.

随机推荐