linux 正则表达式grep实例分析

在很多技术领域(如:自然语言处理,数据存储等),正则表达式可以很方便的提取我们想要的信息,所以正则表达式是一个很重要的知识点!

一、概念

正则表达式(Regular Expression)是用于描述一组字符串特征的模式,用来匹配特定的字符串。通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的工具。

正则表达式目前被集成到了各种文本编辑器/文本处理工具当中

二、应用场景

(1)验证:表单提交时,进行用户名密码的验证。

(2)查找:从大量信息中快速提取指定内容,在一批url中,查找指定url。

(3)替换:将指定格式的文本进行正则匹配查找,找到之后进行特定替换。

三、基本要素

(1)字符类

(2)数量限定符

(3)位置限定符

(4)特殊符号

注意:正则表达式基本是与语言无关的,我们可以结合语言/工具与正则表达式进行文本处理,在后面的博客中,我将使用grep来进行验证。(grep是一款Linux下按行匹配文本的工具,如下,使我们常使用的两个选项)

-E:使用扩展正则匹配

--color:将匹配得到的内容进行语法高亮

1.字符类

举例如下:

例1:

注意:1.grep采用的贪心匹配,它会匹配当前行中的所有匹配内容

2.echo $?表示是否匹配成功(如果成功返回值为0,不成功返回值为1)

例2:

例3:

例4:

例5:

2.数量限定符

举例如下:

例1:

例2:

由此,我们可以看出,“前面的单元”默认是指?或+前面的字符

例3:

例4:

例5:

例6:

注意:该结果为匹配失败,在相关文档中并未出现,应该啊是错误或者废弃的用法

例7:

3.位置限定符

举例如下:

例1:

例2:

例3:

例4:

例5:

例6:

4.特殊符号

举例如下:

假如我们去掉-E选项,会有什么现象呢?

此时,不难发现,去掉-E选项之后没有进行正常的正则匹配,这种现象需要我们引入如下的两个概念!

5.基本正则表达式&扩展正则表达式

区别:正则表达式的扩展正则(Extended规范)和基本正则(Basic规范)下,有些字符应该解释为普通字符,要表示上述特殊含义则需要加“\”转义字符。反之,在扩展规范下,应被理解为特殊含义,要取其字面值,也要对其进行“\”转义。

因此,grep工具带上-E选项,表示使用扩展正则来进行匹配,若没有该选项,则表示使用基准正则来进行匹配。

对于上述的问题,我们举例如下:

例1:

例2:当目标字符串当中本身就包含了字符,要想进行正则匹配,应该这样做:

例3:

5.其他普通字符集及其替换

举个例子:

综上,正则表达式有以下三个分类:

(1)基本正则表达式:Basic即BPEs

(2)扩展正则表达式:Extended即EREs

(3)Perl的正则表达式:PREs

因此,当grep指令不跟任何参数时,表示要使用BREs,后面跟“-E”表示使用EREs,后面跟“-P”参数,表示使用PREs

四、贪婪模式与非贪婪模式

1.贪婪模式:正则表达式匹配时,会尽量多的匹配符合条件的内容

举例如下:

注意:grep默认采用贪婪匹配,可能会对我们的测试结果造成干扰,大家可以上网使用“正则在线转换工具”进行测试

2.非贪婪模式:正则表达式匹配时,会尽量少的匹配符合条件的内容,也就是说,一旦发现匹配符合要求,立马就匹配成功,而不会继续匹配下去(除非有g,开启下一组匹配)

举例如下:

五、零宽断言

1.所谓断言,是用来声明一个应该为真的事实。在正则表达式中,只有当断言为真时才会继续进行匹配。

2.零宽断言:像用于查找某些内容之前或者之后的东西,其中一些特殊字符如“\b、^、$”等用于指定一个位置,这个位置应满足一定的条件。

3.分类:

(1)零宽度正预测先行断言(?=exp)

它断言自身出现的位置之后能匹配的表达式exp。如:\b\w+(?=ing\b),表示匹配以ing结尾的单词的前面的部分(除ing以外的部分)。当我们要查找“I'm singing while you're dancing.”时,它会匹配sing和danc

举例如下:

(2)零宽度正回顾后发断言(?>=exp)

它断言自身出现的位置的前面能匹配的表达式exp。如:(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除er以外的部分),例如:在查找“reading a book”时,它匹配ading

举例如下:

六、简单练习

1.手机号码

2.非零的正整数

3.非零开头的最多带两位小数的数字

4.由数字和26位字母组成的字符串

5.QQ号,从10000开始

6.IP地址

\d+\.\d+\.\d+\.\d+

7.判断账号是否合法

^[a-zA-Z0-9][a-zA-Z0-9_]{4,15}$

8.日期格式

^\d{4}-\d{1,2}-\d{1,2}

正则表达式的学习就到这里结束啦,如果有小伙伴没有看明白的,可以上网查询正则的更多知识点!

(0)

相关推荐

  • linux下关于正则表达式grep的一点总结

    正则表达式(Regular Expression)是用于描述一组字符串特征的模式,用来匹配特定的字符串.通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的工具.类似于生活中常见的寻人启示,通过描述一个人的特征来进行"搜索匹配" 如今正则已经被我们广泛应用,目前被集成到了各种文本编辑器/文本处理工具当中 应用场景**验证: **表单提交时,进行用户名密码验证.**查找: **从大量信息中快速提取指定内容.在一批url中,查找指定url替换: 将指定格式的文本,进行正则匹配查找,找

  • 浅谈Linux grep与正则表达式

    grep简介 grep 是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来.通常grep有三种版本grep.egrep(等同于grep -E)和fgrep.egrep为扩展的grep,fgrep则为快速grep(固定的字符串来对文本进行搜索,不支持正则表达式的引用但是查询极为快速).grep是Linux文本处理三剑客之一. grep使用方式 使用方式: grep [OPTIONS] PATTERN [FILE...] grep [OPTIONS] [-e PATTERN

  • linux grep正则表达式与grep用法详解

    需要大家牢记:正则表达式与通配符不一样,它们表示的含义并不相同 正则表达式只是字符串的一种描述,只有和支持正则表达式的工具相结合才能进行字符串处理.本文以grep为例来讲解正则表达式. grep命令 功能:输入文件的每一行中查找字符串. 基本用法: grep [-acinv] [--color=auto] [-A n] [-B n] '搜寻字符串' 文件名 参数说明: -a:将二进制文档以文本方式处理 -c:显示匹配次数 -i:忽略大小写差异 -n:在行首显示行号 -A:After的意思,显示匹

  • linux系统用户管理与grep正则表达式示例教程

    前言 本文主要给大家介绍了关于linux系统用户管理与grep正则表达式的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. linux系统用户管理与grep正则表达式 1.复制/etc/skel目录为/home/tuser1,要求/home/tuser1及其内部文件的属组和其它用户均没有任何访问权限. [root@suywien ~]# cp -rpv /etc/skel/ /home/tuser1/ '/etc/skel/' -> '/home/tuser1/' '/

  • linux grep与正则表达式使用介绍

    grep (缩写来自Globally search a Regular Expression and Print)是一种强大的文本搜索工具,它能使用特定模式匹配(包括正则表达式)搜索文本,并默认输出匹配行.Unix的grep家族包括grep.egrep和fgrep.Windows系统下类似命令FINDSTR. grep egrep fgrep(不支持正则表达式) grep需要标准输入 因此常常位于管道右侧 命令参数: --color=auto: 对匹配到的文本着色显示 -v: 显示不被patte

  • linux 正则表达式grep实例分析

    在很多技术领域(如:自然语言处理,数据存储等),正则表达式可以很方便的提取我们想要的信息,所以正则表达式是一个很重要的知识点! 一.概念 正则表达式(Regular Expression)是用于描述一组字符串特征的模式,用来匹配特定的字符串.通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的工具. 正则表达式目前被集成到了各种文本编辑器/文本处理工具当中 二.应用场景 (1)验证:表单提交时,进行用户名密码的验证. (2)查找:从大量信息中快速提取指定内容,在一批url中,查找指定url

  • linux文件管理命令实例分析【权限、创建、删除、复制、移动、搜索等】

    本文实例讲述了linux文件管理命令.分享给大家供大家参考,具体如下: 1.文件权限 读      r      4 写      w      2 运行    x      1 文件分为三种权限: 拥有者权限 组内用户权限 组外用户权限 2.查看目录下的文件 ls   [选项] [路径或文件名] -l   :查看详细信息 -a   :查看所有文件,包括隐藏文件 第一列:文件权限     -   (rw-) (---) (---)     第一字符表示文件类型(-表示普通文件,d表示文件夹)  

  • linux文件管理命令实例分析【显示、查看、统计等】

    本文实例讲述了linux文件管理命令.分享给大家供大家参考,具体如下: 1.显示文件内容 cat  :  显示文件内容 tac  :  倒序显示内容 2.更改文件权限 chmod :更改文件权限 -R     递归改变 chown :更改文件拥有者 -R     递归改变 chgrp :更改文件所属组 -R     递归改变 > chmod 666 1.txt > chown user1 1.txt > chgrp user1 1.txt 3.链接文件 1) 保护源程序 2) 访问方便

  • 批处理FINDSTR正则表达式用法实例分析

    1.findstr . 2.txt 或 Findstr "." 2.txt 从文件2.txt中查找任意字符,不包括空字符或空行 2.findstr .* 2.txt 或 findstr ".*" 2.txt 从文件2.txt中查找任意字符包括空行和空字符 3.findstr "[0-9]" 2.txt 从文件2.txt中查找包括数字0-9的字符串或行 4.findstr "[a-zA-Z]" 2.txt 从文件2.txt中查找

  • js正则表达式中的单行模式与多行模式实例分析

    本文实例分析了js正则表达式中的单行模式与多行模式.分享给大家供大家参考.具体如下: js正则表达式是不支持单行模式的.也就是说,不能把某段内容(有换行),采用模式修正符来处理,使整段内容当成一行来处理. 正则多行替换,需要添加/mg模式增强符. <html> <head> <script type="text/javascript"> //正则替换链接,链接有换行 function t1(){ var con = document.getEleme

  • Go语言共享内存读写实例分析

    本文实例分析了Go语言共享内存读写的方法.分享给大家供大家参考.具体分析如下: 前面分析了Go语言指针运算和内嵌C代码的方法,做了一个Go语言共享内存读写的实验. 先大概说下什么是共享内存.我们知道不同进程见的内存是互相独立的,没办法直接互相操作对方内的数据,而共享内存则是靠操作系统提供的内存映射机制,让不同进程的一块地址空间映射到同一个虚拟内存区域上,使不同的进程可以操作到一块共用的内存块.共享内存是效率最高的进程间通讯机制,因为数据不需要在内核和程序之间复制. 共享内存用到的是系统提供的mm

  • php curl中gzip的压缩性能测试实例分析

    本文实例分析了php curl中gzip的压缩性能测试.分享给大家供大家参考,具体如下: 前因: 请求接口次数很多,每日两亿多次,主要是有些接口返回数据量很大高达110KB(为了减少请求次数,将多个接口合并成一个导致的). 后端接口的nginx已经开启gzip,所以做个测试,看看是否在请求时使用压缩解压 php CURL 的扩展安装这里就不说了 用到的curl的两个参数 //在http 请求头加入 gzip压缩 curl_setopt($ch, CURLOPT_HTTPHEADER, array

  • 使用Linux正则表达式灵活搜索文件中的文本

    正则表达式是一种符号表示法,用于识别文本模式.Linux处理正则表达式的主要程序是grep.grep搜索与正则表达式匹配的行,并将结果输送至标准输出. 1. grep匹配模式 grep按下述方式接受选项和参数(其中,regex表示正则表达式) 复制代码 代码如下: grep [options] regex [files] 其中options主要为下表: 选项 含义 功能描述 -i ignore case 忽略大小写 -v invert match 不匹配匹配的 -l file-with-matc

  • php排序算法实例分析

    本文实例分析了php排序算法.分享给大家供大家参考,具体如下: 用PHP写排序,虽然PHP自动了很多排序方式,SQL语句也可以很快速的从数据库里有序的读出数据.但是不同的需求还有灵活 运用所学的PHP基础知识. 我想完成如下的效果 排序算法效果图 就是把一个数值中所以的数据按时间排序并且分行显示 <?php $array = $mysql->query_array($mysql->sql_select("user","userid,truename,year

  • Python自定义进程池实例分析【生产者、消费者模型问题】

    本文实例分析了Python自定义进程池.分享给大家供大家参考,具体如下: 代码说明一切: #encoding=utf-8 #author: walker #date: 2014-05-21 #function: 自定义进程池遍历目录下文件 from multiprocessing import Process, Queue, Lock import time, os #消费者 class Consumer(Process): def __init__(self, queue, ioLock):

随机推荐