深入浅析正则表达式 捕获组

捕获组(capturing group)是正则表达式里比较常用,也是比较重要的概念,我个人觉得掌握这部分的知识是非常重要的。

这篇文章内容不会很深入,但是尽量做到简单易懂又全面。接下来的内容主要是围绕以下7个点:

1: () 捕获组
2: (?:) non capturing group
3: (?=) positive lookahead
4: (?!) negative lookahead
5: (?<=) positive lookbehind
6: (?<!) negative lookbehind
7: (?=), (?!), (?<=), (?<!)的捕获

1: () 捕获组

/go+/

以上的正则表达式表示一个字母g后面跟上一个或者多个字母o,他能匹配go或者goooo。但是如果我们想+不只是运用到字母o上,而是运用到go这个整体上怎么办呢?办法就是给go加括号:

/(go)+/

为了全局匹配以及不考虑大小写,我们接下来会给我们的正则加上ig,这两个flag:

let reg = /(go)+/ig;
'go is g gogo'.match(reg); //["go", "gogo"]

在上面的例子里面(go)就形成了一个捕获组(capturing group)。接下来看一个使用捕获组的例子来加深对它的理解:

let reg = /(\d{2}).(\d{2}).(\d{4})/;
let originString = '10.25.2017';
reg.test(originString); //true
RegExp.$1; //10
RegExp.$2; //25
RegExp.$2; //2017

在上面这个例子里,我们有三组括号,形成了三个捕获组,正则表达式(在javaScript里就是我们的RegExp)会缓存捕获组所匹配的串,以$n表示,n就代表这第几个捕获组。

假如现在我们有一个需求:把显示格式为 10.25.2017 的时间改为 2017-10-25 格式。

我们知道String的replace()方法经常和正则表达式一起使用。在replace()方法里,我们可以直接使用捕获组的结果:

let reg = /(\d{2}).(\d{2}).(\d{4})/;
let originString = '10.25.2017';
let newString = originString.replace(reg, '$3-$1-$2');
console.log(newString);//"2017-10-25"

2: (?:) non capturing group 非捕获型分组

有的时候我们可能只想匹配分组,但是并不想缓存(不想捕获)匹配到的结果,就可以在我们的分组模式前面加上?:。例如上面的时间的例子,我们不想捕获第一个分组的结果,就可以这么做:

let reg = /(?:\d{2}).(\d{2}).(\d{4})/;
let originString = '10.25.2017';
reg.test(originString); //true
RegExp.$1; //25
RegExp.$2; //2017
originString.match(reg);// ["10.25.2017", "25", "2017", index: 0, input: "10.25.2017", groups: undefined]

从上面的例子可以看出,我们的正则表达式依然是匹配的(test()的结果依然为true),但是RegExp.$1不是数字10,而是25,因为我们在第一个括号里加了?:,10就不会被捕获。match()的执行结果也会受?:的影响:match()的结果里不再有‘10'。

3: (?=) positive lookahead 正向前瞻型捕获

有一个句子:1 apple costs 10€. 我们想要匹配€前面的价格(这里是一个数字),但是注意不能匹配到句子开头的数字1。这种情况,就可以用到正向前瞻型捕获:

let reg = /\d+(?=€)/g;
let reg1 = /\d+/g;
let str = '1 apple costs 10€';
str.match(reg); //["10"]
str.match(reg1); //["1", "10"]

上面的例子里面reg1就只需要匹配数字,对于数字后面跟什么并没有要求,所以它能匹配到1,10。但是reg使用了前瞻型匹配,就只能匹配到10。
或许你已经能从上面的对比里了解到什么是正向前瞻型捕获了,意思是:

/x(?=y)/ 匹配x, 但是必须在x的【后面】【是】y的情况下

4: (?!) negative lookahead 负向前瞻型捕获

上面我们了解了什么是正向前瞻型匹配,从字面意思也能猜出来负向前瞻型捕获就是:

/x(?!y)/ 匹配x, 但是必须在x的【后面】【不是】y的情况下

例如下面的例子,我们要匹配数字1,而不要€前面的2,就可以用到?!:

let reg = /\d+(?!€)/g;
let str = '1 apple costs 2€';
str.match(reg); ['1']

5: (?<=) positive lookbehind 正向后顾型捕获

后顾型和前瞻型正好相反,意思就是:

/(?<=y)x/ 匹配x, 但是只在【前面】【有】y的情况下

来看一个例子:

let str = "1 turkey costs $2";
console.log( str.match(/(?<=\$)\d+/g) ); //["2"]

这里的要求是前面有$的数字,所以这里匹配到了数字2,而没有1.

6: (?<!) negative lookbehind 负向后顾型捕获

负向就是与正向相反,那么负向后顾型捕获就是:

/(?<=y)x/ 匹配x, 但是只在【前面】【没有】y的情况下

来看一个例子:

let str = "1 turkey costs $2";
console.log( str.match(/(?<!\$)\d+/g) ); //['1']

7: (?=), (?!), (?<=), (?<!)的捕获

默认情况下上面的前瞻后顾4种都是默认不匹配捕获组里面的内容的,也就是不匹配括号里的条件的。例如我们的正向前瞻/d+(?=€)/g,只会匹配到数字,并不会匹配到€。如果我们想要也匹配到€怎么办呢?答案就是给€也包上一个括号:

let str = "1 turkey costs 2€";
let reg = /\d+(?=(€))/;
str.match(reg); //["2", "€", index: 15, input: "1 turkey costs 2€", groups: undefined]

这样就匹配到了数字2和它后面的€。

下面再来看看后顾型:

let str = "1 turkey costs $2";
let reg = /(?<=(\$|£))\d+/;
console.log( str.match(reg) ); //["2", "$", index: 16, input: "1 turkey costs $2", groups: undefined]

需要特别注意到的一点是,对于后顾型,虽然条件在匹配项的前面,但是匹配出来的结果顺序依然是条件在匹配项的后面。所以这里match()出来的结果是2在$的前面。

总结

以上所述是小编给大家介绍的正则表达式 捕获组,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我们网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

(0)

相关推荐

  • PHP正则表达式之捕获组与非捕获组

    今天遇到一个正则匹配的问题,忽然翻到有捕获组的概念,手册上也是一略而过,百度时无意翻到C#和Java中有对正则捕获组的特殊用法,搜索关键词有PHP时竟然没有相关内容,自己试了一下,发现在PHP中也是可行的,于是总结一下,分享的同时也希望有大神和细心的学习者找到我理解中出现的问题. 什么是捕获组 捕获组语法: 字符  描述 示例 (pattern) 匹配pattern并捕获结果,自动设置组号. (abc)+d 匹配abcd或者abcabcd (?<name>pattern) 或 (?'name'

  • 正则表达式之捕获组/非捕获组介绍

    捕获组 语法: 字符  描述 示例 (pattern) 匹配pattern并捕获结果,自动设置组号. (abc)+d 匹配abcd或者abcabcd (?<name>pattern) 或 (?'name'pattern) 匹配pattern并捕获结果,设置name为组名. \num 对捕获组的反向引用.其中 num 是一个正整数. (\w)(\w)\2\1 匹配abba \k< name > 或 \k' name ' 对命名捕获组的反向引用.其中 name 是捕获组名. (?<

  • PHP之正则表达式捕获组与非捕获组(详解)

    在项目开发过程中正则表示经常会用到,可以说会正则表达式是每个程序员最基本的要求,初学者在刚接触正则表达式都感到很吃力.最近看到一位朋友的博客写的<PHP正则表达式>获益颇多,在章节对通配符以及捕获数据非常感兴趣.这两章节刚好也涉及到了正则表达式的捕获组和非捕获组的内容,以此来分析这方面的内容 我们知道,在正则表达式下(x) 表示匹配'x'并记录匹配的值.这只是比较通俗的说法,甚至说这是不严谨的说法,只有()捕获组形式才会记录匹配的值.非捕获组则只匹配,不记录. 捕获组: (pattern) 这

  • 深入浅析正则表达式 捕获组

    捕获组(capturing group)是正则表达式里比较常用,也是比较重要的概念,我个人觉得掌握这部分的知识是非常重要的. 这篇文章内容不会很深入,但是尽量做到简单易懂又全面.接下来的内容主要是围绕以下7个点: 1: () 捕获组 2: (?:) non capturing group 3: (?=) positive lookahead 4: (?!) negative lookahead 5: (?<=) positive lookbehind 6: (?<!) negative loo

  • Java通过正则表达式捕获组中的文本

    1.简介 Java 正则表达式如何捕获组中的文本 ?--请看下文. 2.代码 /** * 版权所有 编程十万个怎么办(www.tah1986.com) */ public class CapturingTextInAGroupInARegularExpression { public static void main(String[] argv) throws Exception { CharSequence inputStr = "abbabcd"; String patternSt

  • 除捕获组的语法外,其它的(?...)语法都不是捕获组的验证

    在一篇正则表达式技术文档中看到下面内容: "外需要说明的一点是,除(Expression)和(?<name>Expression)语法外,其它的(?...)语法都不是捕获组." 这个内容是好理解的,但疑惑的是,该文章作者在另一篇相关正则的技术文章中,其中一个这样的实例,着实让我迷惑了一番: 文本内容 <td>a</td><td>b</td> 正则表达式 (?is)<td>(?:(?!</td>).)*&

  • 浅析正则表达式-替换原则(.NET) 图文

    一.开篇 最近经常用到替换的东西所以就出来整理下,这里要分享的是正则表达式里面的替换原则,首先要声明的是这里提及到的替换原则是.NET里面的正则表达式的替换原则.先看一下替换的定义替换是只能在替换模式中识别的语言元素. 它们使用正则表达式模式定义全部或部分用于替换输入字符串中的匹配文本的文本. 替换模式可以包含一个或多个替换以及本文字符.其实个人总结的替换的大致是这样的,替换的内容永远都是原文本的内容,通过正则表达式匹配出来文本,来通过组名或者组号来进行对原文本的替换,替换的位置是用正则表达式匹

  • 正则 捕获组(capture group)

    捕获组有两种形式 一种是普通的捕获组,不产生歧义的情况下,后面简称捕获组,语法规则:(expression): 另一种是命名捕获组,语法规则:(?<name>expression)或者(?'name'expression),这两种写法是等价的. 1.编号规则 如果没有显式为捕获组命名,即没有使用命名捕获组,那么需要按数字顺序来访问所有捕获组 在只有普通捕获组的情况下,捕获组的编号是按照"("出现的顺序,从左到右编号的 (\d{4})-(\d{2}-(\d\d)) 1    

  • 深入浅析正则表达式re模块(部分)

    正则表达式: 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑. ​ 什么是正则表达式: 一套规则 - 匹配字符串的 ​ 谈到正则,就只和字符串相关了.我们要考虑的是在同一个位置上可以出现的字符的范围. ​ 正则表达式能做什么: •1.检测一个输入的字符串是否合法 -- web开发项目 表单验证 ◦用户输入一个内容的时候,我们要提前做检测

  • python里使用正则表达式的组嵌套实例详解

    python里使用正则表达式的组嵌套实例详解 由于组本身是一个完整的正则表达式,所以可以将组嵌套在其他组中,以构建更复杂的表达式.下面的例子,就是进行组嵌套的例子: #python 3.6 #蔡军生 #http://blog.csdn.net/caimouse/article/details/51749579 # import re def test_patterns(text, patterns): """Given source text and a list of pa

随机推荐