PERL 正则表达式详细说明

2025-12-06 00:59:34

PERL里正则表达式的简介

一、简介
二、匹配操作符
三、模式中的特殊字符
1、字符+
2、字符 []和[^]
3、字符 *和?
4、转义字符
5、匹配任意字母或数字
6、锚模式
7、模式中的变量替换
8、字符范围转义前缀
9、匹配任意字符
10、匹配指定数目的字符
11、指定选项
12、模式的部分重用
13、转义和特定字符的执行次序
14、指定模式定界符
15、模式次序变量
四、模式匹配选项
1、匹配所有可能的模式(g选项)
2、忽略大小写(i选项)例
3、将字符串看作多行(m选项)
4、只执行一次变量替换例
5、将字符串看作单行例
6、在模式中忽略空格
五、替换操作符
六、翻译操作符
七、扩展模式匹配
1、不存贮括号内的匹配内容
2、内嵌模式选项
3、肯定的和否定的预见匹配
4、模式注释

一、简介
模式指在字符串中寻找的特定序列的字符，由反斜线包含：/def/即模式def。其用法如结合函数split将字符串用某模式分成多个单词：@array = split(/ /, $line);
二、匹配操作符 =~、!~
=~检验匹配是否成功：$result = $var =~ /abc/;若在该字符串中找到了该模式，则返回非零值，即true，不匹配则返回0，即false。!~则相反。
这两个操作符适于条件控制中，如：
if ($question =~ /please/) {
print ("Thank you for being polite!\n");
}
else {
print ("That was not very polite!\n");
}
三、模式中的特殊字符
PERL在模式中支持一些特殊字符，可以起到一些特殊的作用。
1、字符 +
+意味着一个或多个相同的字符，如：/de+f/指def、deef、deeeeef等。它尽量匹配尽可能多的相同字符，如/ab+/在字符串abbc中匹配的将是abb，而不是ab。
当一行中各单词间的空格多于一个时，可以如下分割：
@array = split (/ +/, $line);
注：split函数每次遇到分割模式，总是开始一个新单词，因此若$line以空格打头，则@array的第一个元素即为空元素。但其可以区分是否真有单词，如若$line中只有空格，则@array则为空数组。且上例中TAB字符被当作一个单词。注意修正。
2、字符 []和[^]
[] 意味着匹配一组字符中的一个，如/a[0123456789]c/将匹配a加数字加c的字符串。与+联合使用例：/d[eE]+f/匹配def、 dEf、deef、dEdf、dEEEeeeEef等。^表示除其之外的所有字符，如：/d[^deE]f/匹配d加非e字符加f的字符串。
3、字符 *和?
它们与+类似，区别在于*匹配0个、1个或多个相同字符，?匹配0个或1个该字符。如/de*f/匹配df、def、deeeef等；/de?f/匹配df或def。
4、转义字符
如果你想在模式中包含通常被看作特殊意义的字符，须在其前加斜线"\"。如：/\*+/中\*即表示字符*，而不是上面提到的一个或多个字符的含义。斜线的表示为/\\/。在PERL5中可用字符对\Q和\E来转义。
5、匹配任意字母或数字
上面提到模式/a[0123456789]c/匹配字母a加任意数字加c的字符串，另一种表示方法为：/a[0-9]c/，类似的，[a-z]表示任意小写字母，[A-Z]表示任意大写字母。任意大小写字母、数字的表示方法为：/[0-9a-zA-Z]/。
6、锚模式

锚描述
^ 或 \A 仅匹配串首
$ 或 \Z 仅匹配串尾
\b 匹配单词边界
\B 单词内部匹配

例1：/^def/只匹配以def打头的字符串，/$def/只匹配以def结尾的字符串，结合起来的/^def$/只匹配字符串def(?)。\A和\Z在多行匹配时与^和$不同。
例2：检验变量名的类型：
if ($varname =~ /^\$[A-Za-z][_0-9a-zA-Z]*$/) {
print ("$varname is a legal scalar variable\n");
} elsif ($varname =~ /^@[A-Za-z][_0-9a-zA-Z]*$/) {
print ("$varname is a legal array variable\n");
} elsif ($varname =~ /^[A-Za-z][_0-9a-zA-Z]*$/) {
print ("$varname is a legal file variable\n");
} else {
print ("I dont understand what $varname is.\n");
}
例 3：\b在单词边界匹配：/\bdef/匹配def和defghi等以def打头的单词，但不匹配abcdef。/def\b/匹配def和 abcdef等以def结尾的单词，但不匹配defghi，/\bdef\b/只匹配字符串def。注意：/\bdef/可匹配$defghi，因为$并不被看作是单词的部分。
例4：\B在单词内部匹配：/\Bdef/匹配abcdef等，但不匹配def；/def\B/匹配defghi等；/\Bdef\B/匹配cdefg、abcdefghi等，但不匹配def,defghi,abcdef。
7、模式中的变量替换
将句子分成单词：
$pattern = "[\\t ]+";
@words = split(/$pattern/, $line);
8、字符范围转义

E 转义字符描述范围
\d 任意数字 [0-9]
\D 除数字外的任意字符 [^0-9]
\w 任意单词字符 [_0-9a-zA-Z]
\W 任意非单词字符 [^_0-9a-zA-Z]
\s 空白 [ \r\t\n\f]
\S 非空白 [^ \r\t\n\f]

例：/[\da-z]/匹配任意数字或小写字母。
9、匹配任意字符
字符"."匹配除换行外的所有字符，通常与*合用。
10、匹配指定数目的字符
字符对{}指定所匹配字符的出现次数。如：/de{1,3}f/匹配def,deef和deeef；/de{3}f/匹配deeef；/de{3,}f/匹配不少于3个e在d和f之间；/de{0,3}f/匹配不多于3个e在d和f之间。
11、指定选项
字符"|"指定两个或多个选择来匹配模式。如：/def|ghi/匹配def或ghi。
例：检验数字表示合法性
if ($number =~ /^-?\d+$|^-?0[xX][\da-fa-F]+$/) {
print ("$number is a legal integer.\n");
} else {
print ("$number is not a legal integer.\n");
}
其中 ^-?\d+$ 匹配十进制数字，^-?0[xX][\da-fa-F]+$ 匹配十六进制数字。
12、模式的部分重用
当模式中匹配相同的部分出现多次时，可用括号括起来，用\n来多次引用，以简化表达式：
/\d{2}([\W])\d{2}\1\d{2}/ 匹配：
12-05-92
26.11.87
07 04 92等
注意：/\d{2}([\W])\d{2}\1\d{2}/ 不同于/(\d{2})([\W])\1\2\1/ ，后者只匹配形如17-17-17的字符串，而不匹配17-05-91等。
13、转义和特定字符的执行次序
象操作符一样，转义和特定字符也有执行次序：

特殊字符描述
() 模式内存
+ * ? {} 出现次数
^ $ \b \B 锚
| 选项

14、指定模式定界符
缺省的，模式定界符为反斜线/，但其可用字母m自行指定，如：
m!/u/jqpublic/perl/prog1! 等价于/\/u\/jqpublic\/perl\/prog1/
注：当用字母作为定界符时，不做变量替换；当用特殊字符作为定界符时，其转义功能或特殊功能即不能使用。
15、模式次序变量
在模式匹配后调用重用部分的结果可用变量$n，全部的结果用变量$&。
$string = "This string contains the number 25.11.";
$string =~ /-?(\d+)\.?(\d+)/; # 匹配结果为25.11
$integerpart = $1; # now $integerpart = 25
$decimalpart = $2; # now $decimalpart = 11
$totalpart = $&; # now totalpart = 25.11
四、模式匹配选项

选项描述
g 匹配所有可能的模式
i 忽略大小写
m 将串视为多行
o 只赋值一次
s 将串视为单行
x 忽略模式中的空白

1、匹配所有可能的模式(g选项)
@matches = "balata" =~ /.a/g; # now @matches = ("ba", "la", "ta")
匹配的循环：
while ("balata" =~ /.a/g) {
$match = $&;
print ("$match\n");
}
结果为：
ba
la
ta
当使用了选项g时，可用函数pos来控制下次匹配的偏移：
$offset = pos($string);
pos($string) = $newoffset;
2、忽略大小写(i选项)例
/de/i 匹配de,dE,De和DE。
3、将字符串看作多行(m选项)
在此情况下，^符号匹配字符串的起始或新的一行的起始；$符号匹配任意行的末尾。
4、只执行一次变量替换例
$var = 1;
$line = ;
while ($var < 10) {
$result = $line =~ /$var/o;
$line = ;
$var++;
}
每次均匹配/1/。
5、将字符串看作单行例
/a.*bc/s匹配字符串axxxxx \nxxxxbc，但/a.*bc/则不匹配该字符串。
6、在模式中忽略空格
/\d{2} ([\W]) \d{2} \1 \d{2}/x等价于/\d{2}([\W])\d{2}\1\d{2}/。
五、替换操作符
语法为s/pattern/replacement/，其效果为将字符串中与pattern匹配的部分换成replacement。如：
$string = "abc123def";
$string =~ s/123/456/; # now $string = "abc456def";
在替换部分可使用模式次序变量$n，如s/(\d+)/[$1]/，但在替换部分不支持模式的特殊字符，如{},*,+等，如s/abc/[def]/将把abc替换为[def]。
替换操作符的选项如下表：

选项描述
g 改变模式中的所有匹配
i 忽略模式中的大小写
e 替换字符串作为表达式
m 将待匹配串视为多行
o 仅赋值一次
s 将待匹配串视为单行
x 忽略模式中的空白

注：e选项把替换部分的字符串看作表达式，在替换之前先计算其值，如：
$string = "0abc1";
$string =~ s/[a-zA-Z]+/$& x 2/e; # now $string = "0abcabc1"
六、翻译操作符
这是另一种替换方式，语法如：tr/string1/string2/。同样，string2为替换部分，但其效果是把string1中的第一个字符替换为 string2中的第一个字符，把string1中的第二个字符替换为string2中的第二个字符，依此类推。如：
$string = "abcdefghicba";
$string =~ tr/abc/def/; # now string = "defdefghifed"
当string1比string2长时，其多余字符替换为string2的最后一个字符；当string1中同一个字符出现多次时，将使用第一个替换字符。
翻译操作符的选项如下：

选项描述
c 翻译所有未指定字符
d 删除所有指定字符
s 把多个相同的输出字符缩成一个

如$string =~ tr/\d/ /c;把所有非数字字符替换为空格。$string =~ tr/\t //d；删除tab和空格； $string =~ tr/0-9/ /cs；把数字间的其它字符替换为一个空格。

七、扩展模式匹配
PERL支持PERL4和标准UNIX模式匹配操作所没有的一些模式匹配能力。其语法为：(?pattern)，其中c是一个字符，pattern是起作用的模式或子模式。
1、不存贮括号内的匹配内容
在PERL的模式中，括号内的子模式将存贮在内存中，此功能即取消存贮该括号内的匹配内容，如/(?:a|b|c)(d|e)f\1/中的\1表示已匹配的d或e，而不是a或b或c。
2、内嵌模式选项
通常模式选项置于其后，有四个选项：i、m、s、x可以内嵌使用，语法为：/(?option)pattern/，等价于/pattern/option。
3、肯定的和否定的预见匹配
肯定的预见匹配语法为/pattern(?=string)/，其意义为匹配后面为string的模式，相反的，(?!string)意义为匹配后面非string的模式，如：
$string = "25abc8";
$string =~ /abc(?=[0-9])/;
$matched = $&; # $&为已匹配的模式，此处为abc，而不是abc8
4、模式注释
PERL5中可以在模式中用?#来加注释，如：
if ($string =~ /(?i)[a-z]{2,3}(?# match two or three alphabetic characters)/ {
...
}

一个perl扩展正则表达式代码分析

复制代码代码如下: my $ip = "192.168.0.1|192.168.0.2|192.168.0.1";if ( $ip =~ / ^ (?: ((?:\d{1,3}\.){3}\d{1,3}) (?= (?: \|(?!\1)(?1) )* \z ) \| )* (?1) $ /x )
Perl中的正则表达式介绍

感谢AKA及作者. Perl 中的正则表达式正则表达式的三种形式正则表达式中的常用模式正则表达式的 8 大原则正则表达式是 Perl 语言的一大特色,也是 Perl 程序中的一点难点,不过如果大家能够很好的掌握他,就可以轻易地用正则表达式来完成字符串处理的任务,当然在 CGI 程序设计中就更能得心应手了.下面我们列出一些正则表达式书写时的一些基本语法规则. 9.1 正则表达式的三种形式首先我们应该知道 Perl 程序中,正则表达式有三种存在形式,他们分别是: 匹配:m/<regexp>;
有关perl正则表达式的一些杂项

$也能匹配\n 见Perl语言入门,page 132, 注释6 1 /^.*$/能匹配"\n"么?能!因为$不仅能匹配行尾,也能匹配\n2 /^.*$/能匹配"b\n"么?能!.能b匹配. \n匹配$3 /^.*$/能匹配"\nb"么?不能!为什么?因为默认情况下,.不能匹配\n,把模式改一下变成/^.*$/s就可以了,/s表示.能匹配任意字符,包括\n 多行匹配/m 看一个例子,这段代码输出:hello 复制代码代码如下: my $text
强大的Perl正则表达式实例详解

一.介绍正则表达式各语言都有自己的规范,但是基本都差不多,都是由元字符的组合来进行匹配:由于Nmap内嵌的服务与版本探测是使用的Perl正则规范,因此此篇博客记录一下Perl正则的相关内容,方便后期查阅. 二.Perl正则例子下面的例子可能有不足之处,有些来源于博客,没有验证: 1. 匹配IP地址:\d+\.\d+\.\d+\.\d+ \d:匹配一个数字字符,\d+:匹配一次或多次数字字符. \.:使用转义字符匹配'.'. 2. 匹配邮箱类似于123456@qq.com: /^[a-zA-Z
在PHP中使用与Perl兼容的正则表达式

前言 PHP被大量的应用于Web的后台CGI开发,通常是在用户数据数据之后得出某种结果,但是如果用户输入的数据不正确,就会出现问题,比如说某人的生日是"2月30日"!那应该怎么样来检验暑假是否正确呢? 在PHP中加入了正则表达式的支持,让我们可以十分方便的进行数据匹配. 什么是正则表达式简单的说,正则表达式是一种可以用于模式匹配和替换的强大工具.在几乎所有的基于UNIX/LINUX系统的软件工具中找到正则表达式的痕迹,例如:Perl或PHP脚本语言.此外,JavaScript这种客户
关于Perl里面正则表达式规范

1,定界符 =~ m/there/; =~ s/there/here/; 还有类型的定界符: =~ /there/ =~ m#there#; =~ s#there#here#; =~ m(there); =~ s(there)(here); =~ m{there}; =~ s{there}{here}; =~ m[there]; =~ s[there][here]; =~ m,there,; =~ s,there,here,; =~ m.there.; =~ s.there.here.; =~
PHP中基于perl的正则表达式处理函数

前面我们已经学习了正则表达式的基础语法,包括了定界符.原子.元字符和模式修正符.实际上正则表达式想要起作用的话,就必须借用正则表达式处理函数.本节我们就来介绍一下PHP中基于perl的正则表达式处理函数,主要包含了分割, 匹配,查找,替换等等处理操作,依旧是配合示例讲解,让我们开始吧. 和正则表达式一样,正则表达式处理函数不能够独立使用,而这必须相结合,才能够完成特定的功能.在前面我们也说过,基于perl的正则表达式要快于POXIS正则表达式处理函数,所以我们只介绍以preg开头的基于perl
POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace, ereg, ereg_replace)

首先来看看 POSIX 风格正则表达式的两个主要函数: ereg 函数:(正则表达式匹配) 格式:int ereg ( string pattern, string string [, array &regs] ) 注意:使用 Perl 兼容正则表达式语法的 preg_match() 函数通常是比 ereg() 更快的替代方案.(一般的话还是使用 preg_match() ,比较好勒~~) 以区分大小写的方式在 string 中寻找与给定的正则表达式 pattern 所匹配的子串.如果找到与 p
解析posix与perl标准的正则表达式区别

正则表达式(Regular Expression,缩写为regexp,regex或regxp),又称正规表达式.正规表示式或常规表达式或正规化表示法或正规表示法,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串.在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容.许多程序设计语言都支持利用正则表达式进行字符串操作.例如,在Perl中就内建了一个功能强大的在正则表达式引擎.正则表达式这个概念最初是由 Unix中的工具软件(例如sed和g
PERL 正则表达式详细说明

PERL里正则表达式的简介一.简介二.匹配操作符三.模式中的特殊字符 1.字符+ 2.字符 []和[^] 3.字符 *和? 4.转义字符 5.匹配任意字母或数字 6.锚模式 7.模式中的变量替换 8.字符范围转义前缀 9.匹配任意字符 10.匹配指定数目的字符 11.指定选项 12.模式的部分重用 13.转义和特定字符的执行次序 14.指定模式定界符 15.模式次序变量四.模式匹配选项 1.匹配所有可能的模式(g选项) 2.忽略大小写(i选项)例 3.将字符串看作多行(m选项) 4.只执
正则表达式详细介绍（下）

本文是前一片文章<正则表达式详细介绍(上)>的续篇,在本文中讲述了正则表达式中的组与向后引用,先前向后查看,条件测试,单词边界,选择符等表达式及例子,并分析了正则引擎在执行匹配时的内部机理. 9. 单词边界元字符<<\b>>也是一种对位置进行匹配的"锚".这种匹配是0长度匹配. 有4种位置被认为是"单词边界": 1) 在字符串的第一个字符前的位置(如果字符串的第一个字符是一个"单词字符") 2) 在字符串的最
正则表达式详细介绍（上）

本文是Jan Goyvaerts为RegexBuddy写的教程的译文,下面来看吧! 1. 什么是正则表达式基本说来,正则表达式是一种用来描述一定数量文本的模式.Regex代表Regular Express.本文将用<<regex>>来表示一段具体的正则表达式. 一段文本就是最基本的模式,简单的匹配相同的文本. 2. 不同的正则表达式引擎正则表达式引擎是一种可以处理正则表达式的软件.通常,引擎是更大的应用程序的一部分.在软件世界,不同的正则表达式并不互相兼容.本教程会集中讨论Pe
Java 正则表达式详细使用

Java 正则表达式的使用,具体内容如下所示: java.util.regex.Pattern java.util.regex.Matcher 1.Match match 是从字符串最头部开始匹配,一直到结束,需要匹配整个串 String content = "Welcome, bob!"; content.match("bob"); //false content.match(".*bob") //false content.match(&qu
对python3中的RE(正则表达式)-详细总结

1.引入正则模块(Regular Expression) 要使用python3中的RE则必须引入 re模块 import re #引入正则表达式 2.主要使用的方法 match(), 从左到右进行匹配 #pattern 为要校验的规则 #str 为要进行校验的字符串 result = re.match(pattern, str) #如果result不为None,则group方法则对result进行数据提取 3. 正则表达式 1️⃣单字符匹配规则字符功能 . 匹配任意1个字符(除了\n) []
Python字符串与正则表达式详细介绍

目录一.字符串相关操作二.正则表达式相关操作一.字符串相关操作 1.统计所输入字符串中单词的个数,单词之间用空格分隔.其运行效果如下图所示. s=input('请输入字符串:') sum=1 for i in s: if i==' ': sum+=1 print('方法一:',end='') print('其中的单词总数有:',sum) list=s.split(' ') print('方法二:',end='') print('其中的单词总数有:',len(li
shell 正则表达式详细整理

正则表达式的分类 1.基本的正则表达式(Basic Regular Expression 又叫Basic RegEx 简称BREs) 2.扩展的正则表达式(Extended Regular Expression 又叫Extended RegEx 简称EREs) 3.Perl的正则表达式(Perl Regular Expression 又叫Perl RegEx 简称PREs) 具体的可以参考这篇文章:http://www.jb51.net/tools/shell_regex.html shell常
正则表达式——详细讲解平衡组

这篇文章适合你吗? 要读懂这篇文章的精髓,你最好要有一点正则匹配原理的基础.比如".*?"匹配文本内容"asp163",稍懂正则表达式的人都知道可以匹配,但是你知道他的匹配过程吗?如果你不太清楚,那么下面的内容,对你来说可能不太适合,或许,看的太吃力且无法领悟平衡组的用法.因此,我建议你先了解正则表达式NFA引擎的匹配原理.想要整理一份易懂易描述的话,的确要费些时间,但不知道这篇内容会不会达到我预期的效果.慢慢完善吧~(注:这是我2010年写的,现在拿过来,有时间将

PERL 正则表达式详细说明

相关推荐

随机推荐