JavaScript的正则也有单行模式了

正则表达式最早是由 Ken Thompson 于 1970 年在他改进过的 QED 编辑器里实现的,正则里最简单的元字符 “.” 在当时所匹配的就是除换行符外的任意字符:

"." is a regular expression which matches any character except <nl>.

上面这句话出自 QED 在 1970 年的官方文档,这可能是史上第一份正则文档。

为什么要这么规定?是因为 QED 是以行为单位来编辑文件的,而且行尾的换行符也算在这一行的内容里。比如你想把一段代码中所有的单行注释删掉,在 QED 里可以用下面这句命令:

1,$s#//.*##

如果 “.” 能匹配到换行符,那么换行符也会被删除,会导致这些行和它的下一行合并,这通常都不是我们想要的结果,所以,“.” 在最初发明时被设计成了不能匹配换行符。虽然现在的操作系统上已经没有 QED 命令让我们测试了,但我们还有 VIM,VIM 里的 “.” 也一样不能匹配换行符,因为同样的原因。

不像在 Node 中,读取文件通常是一股脑读完整个文件,Perl 继承了众多 Linux 命令按行读取文件的传统,像这样:

while (<>) {print $_}

_ 的末尾也有换行符,所以 Perl 也就很自然的继承了 QED 的 “.” 不匹配换行符的规定。但 Perl 毕竟是门编程语言,而不是编辑器,它的正则要匹配的对象不单单会是单行文本,还可能是多行文本,因此在它的正则中,“.” 有跨行匹配的需求,因此 Perl 发明了正则的单行模式 /s,即让 “.” 也能匹配换行符。

Perl 中用来打开单行模式的 /s 修饰符的官方描述是 “Treat the string as single line”,这个 “single line” 要这么理解:“.” 在普通模式下只能匹配行内字符,不能跨行;而在单行模式下,Perl 会假装把多行字符串看成一行,把其中的换行符看做是行内字符,所以 “.” 也就能匹配它们了。更形象点说,就是把下面的三行文本

1
2
3

看成 "1\n2\n3\n" 一行文本,单行模式就是这个意思。

但要命的是,因为同样的原因(字符串变量可以包含多行文本),Perl 还发明了 /m 修饰符,即多行模式,官方描述是 “Treat the string as multiple lines”,这个模式 JavaScript 的正则里自古也有,这里这个“多行”的意思是说:^ 和 $ 元字符默认不会匹配一个字符串中间的那些换行符前后的位置,即认为字符串永远只有一行,打开多行模式后就能匹配了。

也就是说,单行模式和多行模式是针对不同的元字符的,刚接触正则的人都会被“单行模式”和“多行模式”这两个看似是相对应的概念,实则毫无关联的名词给搞晕。

后来,Ruby 的作者可能觉得“单行模式”这个正则术语起的不好,特例独行把让 “.” 匹配换行符这一模式称之为“多行模式”,即让 .* 之类的正则能够匹配多行了,所以也完全讲得通,修饰符也用了 /m(Ruby 中默认会开启 Perl 中的“多行模式”,所以 /m 没被占用),这真是雪上加霜,更乱了。

再后来,Python 作者可能也觉得应该避免“单行模式”这个叫法,于是起了个新的名字 “dotall”,也就是让 dot 能匹配所有字符的意思,很好的名字,再后来 Java 也使用了这个名字。

上面回顾了一下历史,解释了下单行模式的由来以及说明了下单行模式这个名字起得不好。V8 最近刚刚实现了一个 stage 3 的 ES 提案 https://github.com/mathiasbynens/es-regexp-dotall-flag,这个提案为 JavaScript 的正则引入了 /s 修饰符和 dotAll 属性,dotAll 属性是学了 Python 和 Java,/s 修饰符是继承了 Perl 的,这里也没必要发明一个新的修饰符比如 /d,只会让事情更复杂。/s 在 JavaScript 的具体效果是让 “.” 能匹配以前不能匹配的四个行终止符:\n(换行)、\r(回车)、\u2028(行分隔符)、\u2029(段落分隔符):

/foo/s.dotAll // true
/^.{4}$/s.test("\n\r\u2028\u2029") // true

其实就是个很简单的东西,但可能一些没有接触过 JavaScript 以外的正则的同学到时候学到这个新的模式后会产生困惑,这里再澄清一下:多行模式控制的是 ^ 和 $ 的表现,单行模式控制的是 “.” 的表现,两者没有直接关系。

然而当初引入单行模式和多行模式这两个易混淆概念的 Perl 语言,已经在 Perl 6 中完全删除了这两个模式:“.” 号默认就匹配换行符,\N 可以匹配换行符除外的任意字符;^ 和 $ 始终匹配字符串的首尾,而新引入了 ^^ 和 $$ 两个元字符来匹配行的首尾。

过去我们常用的单行模式的替代品 [^] 或者 [\s\S] 也不是完全没有用了,比如在一些使用 JavaScript 正则的编辑器里(VS Code、Atom),不太可能给你提供开启单行模式的界面。不过说起编辑器里的正则功能,用 JavaScript 实现的编辑器的正则功能还是太弱了,比如不能在正则自身内部开启某些模式,比如要是在 Sublime(使用 Python 正则)里的话,在正则内部使用 (?s) 就能开启 dotall 模式,比如可以用 (?s)/\*.+?\*/ 匹配到所有的多行注释。

(0)

相关推荐

  • 一个容易犯错的js手机号码验证正则表达式(推荐)

    写一个简单的正则表达式,用来校验11位手机号码,开头允许是13.15.18,我一开始这样写: var reg = /^(13[0-9]{9})|(15[0-9]{9})|(18[0-9]{9})$/; 运行发现,即使是 13988888877157777,也能通过验证,这说明这个写法错了,我的本意是希望这样: ^(13[0-9]{9})$ 或者 ^(15[0-9]{9})$ 或者 ^(18[0-9]{9})$ 所以正确写法是:var reg = /^1[358][0-9]{9}$/;这样才能保证

  • JS正则获取HTML元素的方法

    本文实例讲述了JS正则获取HTML元素的方法.分享给大家供大家参考,具体如下: var html = $("#summaryTemplate").html(); var imageMath = /<img [^<,>]*(?=target-type=("|')replace("|'))[^/,<,>]*\/>/; var scriptMath = /<script [^<,>]*(?=target-type=(&

  • javascript 正则表达式分组、断言详解

     javascript 正则表达式分组.断言详解 提示:阅读本文需要有一定的正则表达式基础. 正则表达式中的断言,作为高级应用出现,倒不是因为它有多难,而是概念比较抽象,不容易理解而已,今天就让小菜通俗的讲解一下. 如果不用断言,以往用过的那些表达式,仅仅能获取到有规律的字符串,而不能获取无规律的字符串. 举个例子,比如html源码中有<title>xxx</title>标签,用以前的知识,我们只能确定源码中的<title>和</title>是固定不变的.因

  • php与javascript正则匹配中文的方法分析

    本文实例讲述了php与javascript正则匹配中文的方法.分享给大家供大家参考,具体如下: php中正则匹配utf-8中文: (重点是:[\x{4e00}-\x{9fa5}]+) $str = "我们"; if (preg_match("/^[\x{4e00}-\x{9fa5}]+$/u",$str,$arr)) { print("该字符串全部是中文"); echo '<pre>'; print_r($arr); } else {

  • JS中正则表达式全局匹配模式 /g用法详解

    本文章来详细介绍js中正则表达式的全局匹配模式 /g用法,代码如下: var str = "123#abc"; var re = /abc/ig; console.log(re.test(str)); //输出ture console.log(re.test(str)); //输出false console.log(re.test(str)); //输出ture console.log(re.test(str)); //输出false 在创建正则表达式对象时如果使用了"g&q

  • js正则表达式验证密码强度【推荐】

    效果图: 代码如下: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>验证密码强度</title> <style type="text/css"> *{margin: 0;padding: 0;} body{background:#ccc;} #demo{width:400

  • JavaScript的正则也有单行模式了

    正则表达式最早是由 Ken Thompson 于 1970 年在他改进过的 QED 编辑器里实现的,正则里最简单的元字符 "." 在当时所匹配的就是除换行符外的任意字符: "." is a regular expression which matches any character except <nl>. 上面这句话出自 QED 在 1970 年的官方文档,这可能是史上第一份正则文档. 为什么要这么规定?是因为 QED 是以行为单位来编辑文件的,而且行

  • js正则表达式中的单行模式与多行模式实例分析

    本文实例分析了js正则表达式中的单行模式与多行模式.分享给大家供大家参考.具体如下: js正则表达式是不支持单行模式的.也就是说,不能把某段内容(有换行),采用模式修正符来处理,使整段内容当成一行来处理. 正则多行替换,需要添加/mg模式增强符. <html> <head> <script type="text/javascript"> //正则替换链接,链接有换行 function t1(){ var con = document.getEleme

  • 总结JavaScript的正则与其他语言的不同之处

    前言 最近发现JavaScript中的正则在某些地方的表现和其他语言或工具中的正则有些不同,比较另类.虽然你几乎不可能写出也几乎用不到下面我讲的这些正则,但是了解一下毕竟是好的. 本文中的代码示例都是在兼容ES5的JavaScript环境中执行的,也就是说,IE9之前版本,Fx4左右的版本,等,中的表现很有可能和我下面讲的不一样. 1.空字符类 不包含任何字符的字符类[]称之为空字符类(empty char class),我相信你没听别人这么叫过,因为在其他语言中,这种写法是非法的,所有的文档和

  • 正则表达式的多行模式与单行模式图文分析

    在Expresso中,测试"多行模式" 测试一 注意:这里样例文本中3eeeee后面没有回车,光标就在e的后面.匹配的结果是3eeeee,如上图的Search Results区中所示. 为什么这里不能匹配1abcde和2abc? 开启多行模式 ^ 可以匹配字符串开头(字符串的开始位置),也可以匹配行的开头(即换行符\n之后的位置) $ 可以匹配字符串结尾(字符串的结束位置), 也可以匹配行的结尾(即换行符\n之前的位置) 关闭多行模式 ^ 只能匹配字符串开头 $ 只能匹配字符串结尾 知

  • JavaScript正则表达式迷你书之贪婪模式-学习笔记

    贪婪模式: 在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不同的次数,比如:"{m,n}", "{m,}", "?", "*", "+",具体匹配的次数随被匹配的字符串而定.这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配 非贪婪模式: 在修饰匹配次数的特殊符号后再加上一个 "?" 号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表

  • javascript的正则匹配方法学习

    javascript中正则匹配有3个方法,match,exec,test.这些方法都跟字符串和RegExp对象有关,但使用场景不一样,容易混淆.match是字符串的一个方法,接收一个RegExp对象做为参数,其他的是RegExp对象的方法,接收一个字符串参数. var str = 'abcdef12ab34cd56ef'; var patt = new RegExp('ab'); //主意是非全局匹配 var ret_test = patt.test(str); console.log(ret_

  • Javascript使用正则验证身份证号(简单)

    身份证为15位或者18位,15位的全为数字,18位的前17位为数字,最后一位为数字或者大写字母"X". 与之匹配的正则表达式: (^\d{15}$)|(^\d{17}([0-9]|X)$) 下面以Javascript为例进行说明: functionisIdCardNo(num) { num = num.toUpperCase(); //身份证号码为15位或者18位,15位时全为数字,18位前17位为数字,最后一位是校验位,可能为数字或字符X. if ( !(/(^\d{15}$)|(^

  • JS中正则表达式只有3种匹配模式(没有单行模式)详解

    JS正则表达式对象模式仅有如下三种:  g (全文查找出现的所有 pattern) i (忽略大小写) m (多行查找) 即没有单行匹配模式,Singleline(单行模式):更改.的含义,使它与每一个字符匹配(包括换行符\n). 如java中 String regex = "(?s)(?<=interface).{0,500}(shutdown)";---------"."表示在一行. 但可以采用[\d\D]或[\w\W]或[\s\S]或(.|\s)*?来解

  • JavaScript常用正则验证函数实例小结【年龄,数字,Email,手机,URL,日期等】

    本文实例总结了JavaScript常用正则验证函数.分享给大家供大家参考,具体如下: 1.验证年龄格式(年龄只能0~99,两位数) //验证年龄格式(年龄只能0~99,两位数) function ValidateUserAge(age) { var regNum = /^[0-9]{1,2}$/; if (regNum.test(age)) { return true; } else { alert("请输入正确的年龄!") return false; } } 2.控制文本框只能输入数

  • Javascript 函数的四种调用模式

    Javascript 函数的四种调用模式 1  函数模式 最普通的函数调用 // 声明式函数 function fn1 () { console.log(this); } // 函数表达式函数 var fn2 = function() { console.log(this); }; // 调用 函数中this表示全局对象,在浏览器中就是指window fn1(); //window fn2(); //window 2 方法模式 函数依附于一个对象,是对象的一个属性,我们再调用这个函数.这种模式就

随机推荐