浅谈正则速记法的技巧

给你一篇文章,如何挑选出你想要的字符串呢?你可以从左到右从上到下,一个一个字符读取出来,写一大堆if做判断。这样太麻烦了,正则就是将以上过程抽象出来,用一些特定符号就能表示出大部分规则

对大部分人来说,正则主要是难记,其实只要对正则符号分类记忆,就会发现核心概念其实特别简单

注:本文会假设你至少看过一遍正则的文档,如果没看过,可以看mdn(有中文翻译),如果觉得mdn排版乱,推荐去https://devdocs.io/javascript/global_objects/regexp学习。本文所使用语言为javascript

元字符

/a/中的a就是一个元字符,一个元字符匹配一个实体字符,这里的“a”没有特殊含义,就匹配一个英文a

/\d/就匹配0到9的所有数字,如果两个连写/\d\d/就可以匹配10到99的所有数字

/./可以匹配任何字符

集合

假如有一串字符串'0123456789',我只想匹配其中的'3','6','9',这时可以放在集合中/[369]/

执行后会发现只有3被匹配到,是因为集合中不管写多少东西都代表一个元字符,集合也是一种元字符
你可能见过这样都集合/[0-9a-zA-Z_]/它代表匹配所有数字,字母和下划线,它与元字符/\w/的效果是一样的,集合更灵活\w更方便

排除型集合

/[^0-9]/除了数字都匹配(我喜欢叫它否定集合)

或(多选)

假设我有一大堆书单,我希望从中匹配出naroto和one piece,那么可以这样写/naroto|one pice/ 竖线代表或,a或b,你也可以写多个a|b|c|d,你当然可以写出0|1|2...|9来匹配所有数字。但要注意和集合的区别,集合是一个元字符,不能匹配单词,|两边可以是多个元字符

分组

我现在有一堆文件,我希望匹配出后缀是.css和.less的文件,你可以很自然的写出/.css|.less/这样的代码。其实还有一个简便写法/.(c|le)ss/,分组可以将若干个元字符放在同一个作用域中做处理,通过分组我们可以写出更简练的代码

分组还有一个特殊的用法,思考如何匹配'asd_asd_asd_asd_asd'这种字符串?

答案是/(asd)(_\1)+/,\1是个非常特殊的元字符,代表重复使用第一个分组的匹配结果,\2就代表第二个,以此类推,+加号表示重复一到多次(这个后面会讲),需要注意的是计数从1开始,\0代表另外的意思(请看文档)

量词

一长串字符中我只想匹配连续的数字,但/\d/只会匹配一个,这时候可以使用量词/\d{n,}/,n写几就是几到多,比如{1,}就是1到多。{n}这种写法表示n个相连,匹配2333可以写成/23{3}/

还有几个简写的量词

  • +代表1到多,等于{1,}
  • *代表0到多,等于{0,}
  • ?代表0或1个,等于{0,1}

贪婪模式和非贪婪模式

量词有个尴尬的地方,比如用/.*a/去匹配 '123a123a',本来希望得到'123a',实际却得到'123a123a'。这是因为任何字符都满足/./加上量词会导致从头匹配到尾,但因为我们还有其他元字符,所以这时正则引擎会回溯,将已经匹配的结果从后往前一个个拿出来,与剩下的元字符相匹配。
这种模式叫贪婪模式,它可能会产生预期之外的结果和不必要的性能浪费

解决方案是使用非贪婪模式,在量词后面加?问号可以得到最小结果,现在使用/.*?a/去匹配就可以得到'123a'了。任何量词后都可以使用非贪婪模式

环视

x(?=y)这个功能有很多种翻译,比如零宽断言,我个人感觉比较准确的是“正向肯定环视”
x(?!y)正向否定环视

x代表元字符,y也代表元字符,x(?=y)的意思是紧接着y的x,比如 '-1a--2b-',使用/\d(?=a)/去匹配,会得到1;/\d(?!a)/去匹配,会得到2。

这功能怎么用?举个例子,有一段字符串'a(123)b',我只想要括号内的内容,但不想要括号
我需要匹配到右括号左边的位置,那么我可以写成/(?=\))/(注意括号需要转义),我不想要左括号/[^(]/,我不关心括号内的内容/.*/,这时组合三个正则就变成了/[^(].*(?=\))/

实际上这个功能匹配的是位置,从匹配到的位置开始找元字符,所以你如果在环视后面加量词是没用的

其他

^$也是匹配位置的元字符,分别是匹配开头和结尾,比如我们想匹配文件结尾是.js的文件可以写成/.js$/。匹配http开头的链接可以写成/^http:\/\//

还有一些特殊的\u[\b]\0等,需要你自己看文档

标识符

g:一个正则只会匹配一次,如果加上g标识符就会全局匹配, /\d/g,这个正则是不管两个数字之间隔了什么,都会将所有数字匹配出来

i:不区分大小写/^http:\/\//i就会匹配http://和HTTP://

核心概念就这么多,其他内容请详细查看文档

你以为这就结束了?其实还有后续哒!

我要继续说环视

还有个神奇的逆向环视没有讲x(?<=y) ,因为这是18年才进正式标准的功能,虽然它可能比js年龄大,但js就是不支持你怕不怕!

前面那个/[^(].*(?=\))/可以改成/(?<=y).*(?=\))/

正则最大但坑就是,让新手产生正则无所不能的想法,一个复杂字符串处理总以为可以通过一个神奇的正则来搞定。

正则不是万能的!

还是之前的例子,给字符串'a(1\(2(3)'让你取括号内的内容请问你怎么取?首先应该弄清需求,如果正则过于难写,可以用js的字符串处理函数辅助正则,分部操作。另外正则的性能并不高,不是说很复杂的操作写成一行正则性能就比其他方式快了,没有测试就没有发言权

正则理论上是有极限的,举个例子,有字符串1xxxyyyy2让你取{n}个x和{m}个y,n和m是不确定个数,写成x{1,}y{1,}是没问题的,但如果要求是x{n}y{n}就不行了,比如一个字符串有3个x,你就要取3个y,有4个x,你就要取4个y,单靠正则就无法完成了。

正则难,难在门槛高,门槛高在难记,之所以难记,其实还是因为反人类的符号让你下意识的排斥它。熟悉正则,正式正则,学会正则,会给你带来超乎想象的便利!

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • 通俗解释JavaScript正则表达式快速记忆

    我们知道,正则表达式是一个处理字符串中很实用的技巧.然而,即便是Javascript写的很厉害的程序猿,有时也会忘掉正则表达式的语法,从而使用起来有些棘手 1.正则表达式中最重要的三个符号: 1.1 B 在正则表达式中B有3种类型的括号: 1.1.1 方括号 "[". 方括号"["内是需要匹配的字符.中括号括住的内容只匹配一个单一的字符. ^[ab]$ 1.1.2花括号"{" 花括号"{"内是指定匹配字符的数量. ^[ab]{

  • 浅谈正则速记法的技巧

    给你一篇文章,如何挑选出你想要的字符串呢?你可以从左到右从上到下,一个一个字符读取出来,写一大堆if做判断.这样太麻烦了,正则就是将以上过程抽象出来,用一些特定符号就能表示出大部分规则 对大部分人来说,正则主要是难记,其实只要对正则符号分类记忆,就会发现核心概念其实特别简单 注:本文会假设你至少看过一遍正则的文档,如果没看过,可以看mdn(有中文翻译),如果觉得mdn排版乱,推荐去https://devdocs.io/javascript/global_objects/regexp学习.本文所使

  • 浅谈iOS应用中的相关正则及验证

    1.手机号码的验证正则 正则表达式: ^((13[0-9])|(15[^4,\\D])|(18[0,0-9]))\\d{8}$ 详细解释 解释: •^...$: ^:开始 $:结束 中间为要处理的字串 •(13[0-9]): 以13开头接下来一位为0-9之间的数 13 : 以13开头 [0-9]:分割语法,13后面是0-9之间的数 •| : 或(or), 将前后两个匹配条件进行or运算 • (15[^4\\D]) : 以15开头接下来一位是除4之外的0-9数字 15 : 以15开头 [^4\\D

  • 浅谈PHP正则中的捕获组与非捕获组

    今天遇到一个正则匹配的问题,忽然翻到有捕获组的概念,手册上也是一略而过,百度时无意翻到C#和Java中有对正则捕获组的特殊用法,搜索关键词有PHP时竟然没有相关内容,自己试了一下,发现在PHP中也是可行的,于是总结一下,分享的同时也希望有大神和细心的学习者找到我理解中出现的问题. 什么是捕获组 我们先看一下PHP的正则匹配函数 int preg_match ( string $pattern , string $subject [, array &$matches [, int $flags =

  • 浅谈js中test()函数在正则中的使用

    test() 方法用于检测一个字符串是否匹配某个模式. 返回一个 Boolean 值,它指出在被查找的字符串中是否匹配给出的正则表达式. regexp.test(str) 参数 regexp 必选项.包含正则表达式模式或可用标志的正则表达式对象. str    必选项.要在其上测试查找的字符串. 说明 test 方法检查字符串是否与给出的正则表达式模式相匹配,如果是则返回 true,否则就返回 false. 每个正则表达式都有一个 lastIndex 属性,用于记录上一次匹配结束的位置. var

  • 浅谈Linux下通过find命令进行rm文件删除的小技巧

    我们经常会通过find命令进行批量操作,如:批量删除旧文件.批量修改.基于时间的文件统计.基于文件大小的文件统计等,在这些操作当中,由于rm删除操作会导致目录结构变化,如果要通过find结合rm的操作写成脚本,就会遇到一些麻烦,本文通过一个例子为大家进行介绍. 系统环境: SUSE Linux Enterprise Server 11 或 Red Hat Enterprise Linux 问题症状: 客户现场有一个自动化的脚本,有以下的find语句,每天运行以删除某个目录下7天以前的文件或目录,

  • 浅谈选择、冒泡排序,二分查找法以及一些for循环的灵活运用

    如下所示: import java.util.Arrays; //冒泡排序 public class Test { public static void main(String[] args) { int[] array = { 31, 22, 15, 77, 52, 32, 18, 25, 16, 7 }; // 冒泡 --> 两两比较 --> 提取出最大的数 在最后一位 //拿第一位和它后面的一位进行 两两比较 System.out.println(Arrays.toString(arra

  • 浅谈Vue 函数式组件的使用技巧

    什么是函数式组件 没有管理任何状态,也没有监听任何传递给它的状态,也没有生命周期方法,它只是一个接受一些 prop 的函数.简单来说是 一个无状态和无实例的组件 基本写法: Vue.component('my-component', { functional: true, // Props 是可选的 props: { // ... }, // 为了弥补缺少的实例 // 提供第二个参数作为上下文 render: function(createElement, context) { // ... }

  • 浅谈PHP7中的一些小技巧

    相同的命名空间,相同的 use 在 PHP 7 之前,开发者经常这么做: use Universe\Saiyan; use Universe\SuperSaiyan; 从 PHP 7 开始: use Universe\{Saiyan, SuperSaiyan}; 函数和常量也是一样的.如果它们属于同一命名空间,则可以对它们进行分组. 常量可以是数组 define('NAMES', [ 'first' => 'John', 'middle' => 'Fitzgerald', 'last' =&g

  • 浅谈Java编程之if-else的优化技巧总结

    一.使用策略枚举来优化if-else 看到网上蛮多人推荐使用策略模式来优化if-else,但我总觉得,搞一堆策略类来优化大批量if-else,虽然想法很好,但无意之中很可能又会创造出很多类对象,就显得过于繁重了.若想使用策略模式来优化大批量if-else,其实有一种更好的方式,这是策略模式+枚举方式的改良 二.使用三目运算符来优化if-else 1.根据if-else条件来判断赋值的,如: String id=""; if(flag){ id="a"; }else{

  • 浅谈JS正则RegExp对象

    目录 1.RegExp对象 2.语法 2.1 定义 2.2 修饰符 2.3 方括号 2.4 元字符 2.5 量词 2.6 方法 1.RegExp对象 正则表达式是描述字符模式的对象. 正则表达式用于对字符串模式匹配及检索替换,是对字符串执行模式匹配的强大工具. 参考教材:w3cschool | JavaScript RegExp 对象 2.语法 2.1 定义 当使用 构造函数 创造正则对象时,需要常规的字符转义规则(在前面加反斜杠 \) /* 比如,以下两种方式的定义是等价的 */ // 构造函

随机推荐