linux下关于正则表达式grep的一点总结

正则表达式(Regular Expression)是用于描述一组字符串特征的模式,用来匹配特定的字符串。通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的工具。类似于生活中常见的寻人启示,通过描述一个人的特征来进行“搜索匹配”
如今正则已经被我们广泛应用,目前被集成到了各种文本编辑器/文本处理工具当中

应用场景**验证: **表单提交时,进行用户名密码验证。**查找: **从大量信息中快速提取指定内容。在一批url中,查找指定url替换: 将指定格式的文本,进行正则匹配查找,找到之后进行特定替换,(vim文本替换等)

在很多技术领域(比如,自然语言处理,数据存储等),正则表达式可以很方便的提取出我们想要的信息,所以这部分必不可少构成基本要素字符类数量限定符位置限定符特殊符号

1. 字符类:

字符 说明 举例
. 匹配任意的一个字符 abc. 可以匹配abcd、abc0等
[] 匹配 [] 内的任意一个字符 [012]a可以匹配0a、1a、2a
- 在括号内表示字符范围 如[0-9]可以匹配任何一个数字
^ 放在[]内前面表示匹配除括号中字符外的任意一个字符 [^ab]c可以匹配1c、dc,但是不能匹配ac、bc
[[:xxx:]] grep工具预定义的一些命名字符类 [[:digit:]]可以匹配一个数字,[[:alpha:]]匹配一个字符,[[:lower:]]匹配任何一个小写字母等

应用:

grep使用--color选项将匹配的字符串以红色标注出来Linux下可以用echo $?来打印上一条命令执行的退出码,为0表示执行成功,1表示失败。

实验如下:

注意:使用 . 默认为贪心匹配,和后面的正则匹配方式相关,后面再述。

2. 数量限定符:

字符 说明 举例
? 匹配紧跟它前面的单元(前面的一个数字或字符) 0或1次 如匹配小数,用0\.?[0-9]匹配0.1 、0.2、0.3等;由于.在正则里面是特殊符号所以需要用\进行转义操作(后面再说)
+ 匹配紧跟它前面的单元 1或多次 [a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.com匹配一个邮箱地址
* 匹配紧跟它前面的单元0或多次 [0-9][0-9]*匹配至少一位数字,等价于[0-9]+
{N} 精确匹配紧跟它前面的单元N次 [0-9]{3}匹配000到999之间的数字
{N,} 匹配紧跟它前面的单元至少N次 [0-9]{3,}匹配三位及其以上的数字
{,M} 匹配紧跟它前面的单元最多M次 [0-9]{,1}等价于[0-9]?
{N,M} 匹配紧跟它前面的单元N~M次 近似匹配IP地址:[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}

应用:

3. 位置限定符:

字符 说明 举例
^ 匹配行首位置,从行首开始匹配 ^world只匹配一行开头的world
$ 匹配行末位置,从行末尾开始匹配 ;$匹配一行末尾的;号,^$匹配空行
< 匹配单词开始位置 < th匹配this,不匹配teach、ethernet
\> 匹配单词末尾位置 p\>匹配sleep、leap等,不匹配parent、sleepy
\b 匹配单词的开始位置、末尾位置 \borld匹配world、aorld,\borld\b只匹配orld
\B 匹配非单词的开头、末尾位置 如 \Bat\B匹配battery,不匹配attend、hat等以字符串"at"开头、结尾的单词

注意:其中 \b 用来限定是目标串中是否有以指定字符串开头的单词,我们称之为词界。 \B 称之为非词界
应用:

4. 特殊符号:

字符 说明 举例
\ 转义字符,普通字符转义为特殊字符,特殊字符转义为普通字符 <写成<匹配单词开头,.前面加上\写成\.. 的字面值
() 将正则表达式的一部分括起来组成一个单元,可以对整个单元使用数量限定符 ([0-9]{1,3}\.){3}[0-9]{3}匹配IP地址
| 连接两个子表达式,表示或的关系 n(o|either)匹配no或neither

应用:

( )将包含内容括起来作为一个整体,进而通过数量限定符限定。

| 用来级联多个条件,只要有任意一个匹配,即可匹配,表示或者关系,我们称之为析取符

正则表达式版本其他常用通用字符集及其替换

符号 等价于 匹配
\d [0-9] 数字字符
\D [^0-9] 非数字字符
\w [a-zA-Z0-9_] 数字字母下划线
\W [^\w] 非数字字母下划线
\s [_\r\t\n\f] 表格,换行等空白区域
\S [^\s] 非空白区域

于是, 我们现在可以用这些符号来简化我们正则表达式的编写了?试试

可是结果好像并不如我们所愿?其实这里还与正则表达式版本有关。正则分为以下几个版本:

基本的正则表达式(Basic Regular Expression 又叫 Basic RegEx 简称 BREs)扩展的正则表达式(Extended Regular Expression 又叫 Extended RegEx 简称 EREs)Perl 的正则表达式(Perl Regular Expression 又叫 Perl RegEx 简称 PREs)

在grep中指定相应的参数即可,而这几个版本中默认的就是基本正则,带上-E选项就是扩展正则,而带上-P参数就是用perl版正则。解决前面的问题,我们这里让grep带上-P选项便可解决了

版本间区别正则表达式的Extended规范和Basic规范基本相同。只是在Basic规范下,有些字符 ?+{}|() 应解释为普通字符,要表示上述特殊含义则需要加 \ 转义。反之,在Extended规范下, ?+{}|() 应该被理解成特殊含义,要取其字面值,也要对其进行\ \ 转义。所以, grep 工具带上 -E 选项,表示使用扩展正则来进行匹配(亦可直接使用egrep 命令操作),若没有,则表示使用基准正则进行匹配。带-P选项使用的perl正则匹配。它是perl语言集成的最重要的一种特性,它十分强大,很多语言设计正则式支持的时候基本上都参考Perl的正则表达式。正则匹配模式

贪婪模式

正则表达式去匹配时,会尽量多的去匹配符合条件的内容,grep命令 默认使用的就是贪婪匹配,非贪婪模式
正则表达式去匹配时,会尽量少的匹配符合条件的内容 也就是说,一旦发现匹配符合要求,立马就匹配成功,而不会继续匹配下去(除非有g选项,开启下一组匹配)

总结:可以看到,非贪婪模式的标识符,就是贪婪模式的标识符后面加上一个 ?

(0)

相关推荐

  • 浅谈Linux grep与正则表达式

    grep简介 grep 是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来.通常grep有三种版本grep.egrep(等同于grep -E)和fgrep.egrep为扩展的grep,fgrep则为快速grep(固定的字符串来对文本进行搜索,不支持正则表达式的引用但是查询极为快速).grep是Linux文本处理三剑客之一. grep使用方式 使用方式: grep [OPTIONS] PATTERN [FILE...] grep [OPTIONS] [-e PATTERN

  • linux 正则表达式grep实例分析

    在很多技术领域(如:自然语言处理,数据存储等),正则表达式可以很方便的提取我们想要的信息,所以正则表达式是一个很重要的知识点! 一.概念 正则表达式(Regular Expression)是用于描述一组字符串特征的模式,用来匹配特定的字符串.通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的工具. 正则表达式目前被集成到了各种文本编辑器/文本处理工具当中 二.应用场景 (1)验证:表单提交时,进行用户名密码的验证. (2)查找:从大量信息中快速提取指定内容,在一批url中,查找指定url

  • linux系统用户管理与grep正则表达式示例教程

    前言 本文主要给大家介绍了关于linux系统用户管理与grep正则表达式的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. linux系统用户管理与grep正则表达式 1.复制/etc/skel目录为/home/tuser1,要求/home/tuser1及其内部文件的属组和其它用户均没有任何访问权限. [root@suywien ~]# cp -rpv /etc/skel/ /home/tuser1/ '/etc/skel/' -> '/home/tuser1/' '/

  • linux grep与正则表达式使用介绍

    grep (缩写来自Globally search a Regular Expression and Print)是一种强大的文本搜索工具,它能使用特定模式匹配(包括正则表达式)搜索文本,并默认输出匹配行.Unix的grep家族包括grep.egrep和fgrep.Windows系统下类似命令FINDSTR. grep egrep fgrep(不支持正则表达式) grep需要标准输入 因此常常位于管道右侧 命令参数: --color=auto: 对匹配到的文本着色显示 -v: 显示不被patte

  • linux grep正则表达式与grep用法详解

    需要大家牢记:正则表达式与通配符不一样,它们表示的含义并不相同 正则表达式只是字符串的一种描述,只有和支持正则表达式的工具相结合才能进行字符串处理.本文以grep为例来讲解正则表达式. grep命令 功能:输入文件的每一行中查找字符串. 基本用法: grep [-acinv] [--color=auto] [-A n] [-B n] '搜寻字符串' 文件名 参数说明: -a:将二进制文档以文本方式处理 -c:显示匹配次数 -i:忽略大小写差异 -n:在行首显示行号 -A:After的意思,显示匹

  • linux下关于正则表达式grep的一点总结

    正则表达式(Regular Expression)是用于描述一组字符串特征的模式,用来匹配特定的字符串.通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的工具.类似于生活中常见的寻人启示,通过描述一个人的特征来进行"搜索匹配" 如今正则已经被我们广泛应用,目前被集成到了各种文本编辑器/文本处理工具当中 应用场景**验证: **表单提交时,进行用户名密码验证.**查找: **从大量信息中快速提取指定内容.在一批url中,查找指定url替换: 将指定格式的文本,进行正则匹配查找,找

  • Linux下find和grep常用命令及区别介绍

    在使用linux时,经常需要进行文件查找.其中查找的命令主要有find和grep.两个命令是有区别的. 区别: (1)find命令是根据文件的属性进行查找,如文件名,文件大小,所有者,所属组,是否为空,访问时间,修改时间等. (2)grep是根据文件的内容进行查找,会对文件的每一行按照给定的模式(patter)进行匹配查找. 一.find命令 基本格式:find  path expression 1.按照文件名查找 (1)find / -name httpd.conf #在根目录下查找文件htt

  • Linux下如何使用grep命令查找带有tab(退格)的字符

    需要在日志文件统计删除的主帖,而日志文件是tab(退格)字符隔开的:假设日志文件名叫delete.log. 保存格式和保存的数据如下, 删除日期            帖子类型(11为主帖,12为回帖)    帖子id    操作人id 2011-11-01 00:05       12      71163578        1153089  2011-11-01 00:19       11      71163800        134379  2011-11-01 00:19    

  • linux下的通配符与正则表达式

    通配符 *  任意字符,可重复多次     ? 任意字符,重复一次     [] 代表一个字符 举例: [a,b,c] 表示abc中任意一个 通配符的作用是用来匹配文件名的 正则表达式 正则表达式是在文件中匹配符合条件的字符串的 ls find cp是不支持正则表达式的 但是grep awk sed支持正则表达式 [root@hadoop-bigdata01 test]# touch aa [root@hadoop-bigdata01 test]# touch aab aabb [root@ha

  • Linux下的Grep命令使用方法详细介绍

    1. grep简介 grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来.Unix的grep家族包括grep. egrep和fgrep.egrep和fgrep的命令只跟grep有很小不同.egrep是grep的扩展,支持更多的re元字符, fgrep就是 fixed grep或fast grep,它们把所有的字

  • 详解Linux下find查找文件命令和grep查找文件命令

    目录 一.find命令 1.按文件名 2.按文件类型查询 3.按照文件大小查找 4.按照文件日期查找 4.1按照创建日期查找 4.2按照修改日期查找 4.3按照访问日期查找 5.按深度查找 5.1查找起始点以下n层的目录,不超过n层 5.2搜距离起始点n层以下的目录(即最少n层) 6.高级查找 6.1-exec 6.2-ok 6.3管道方式 二.grep命令 三.grep和find命令结合使用 linux中一切皆文件的思想是重中之重,那么查找文件是学习Linux必须要掌握的技能. 一.find命

  • Linux基础之正则表达式,用户、组管理命令介绍

    通配符(Globbing) 通配符与元字符类似,通配符主要用于文件名的匹配,而元字符则主要用在字符串的匹配上: 下面介绍几种常用的通配符: * 表示匹配任意位数的任意字符 ? 表示匹配一位任意字符 ^ 表示取反,不包含的意思 [] 表示此区间内的任意一个字符 {} 表示一种集合 \ 转义字符,使具有特殊意义的字符失去原有意义 | 表示'或',匹配一组可选的字符 元字符 元字符是用来描述字符的特殊字符. 常用的元字符及意义如下: * 重复前面的字符0次或者多次 . 匹配任意字符一次 \+ 匹配前面

  • Linux 下xargs命令详解及xargs与管道的区别

    为什么要用xargs,问题的来源 在工作中经常会接触到xargs命令,特别是在别人写的脚本里面也经常会遇到,但是却很容易与管道搞混淆,本篇会详细讲解到底什么是xargs命令,为什么要用xargs命令以及与管道的区别.为什么要用xargs呢,我们知道,linux命令可以从两个地方读取要处理的内容,一个是通过命令行参数,一个是标准输入.例如cat.grep就是这样的命令,举个例子: echo 'main' | cat test.cpp 这种情况下cat会输出test.cpp的内容,而不是'main'

  • 基于Linux下Nagios的安装与配置说明介绍[图]

    一.Nagios简介 Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows.Linux和Unix的主机状态,交换机路由器等网络设置,打印机等.在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知. Nagios原名为NetSaint,由Ethan Galstad开发并维护至今.NAGIOS是一个缩写形式: "Nagios Ain't Gonna Insist On Sainthood" Sainthood 翻译为圣徒

随机推荐