正则表达式 应用四则

以前就想总结一下,一直没有时间,今天看见了一篇好文,特此贡献出来,尽情享受正则的强大功能吧!!
以下为正文内容:
------------------------------------------------------------

正则表达式(Regular Expression)为字符串模式匹配提供了一种高效、方便的方法。几乎所有高级语言都提供了对正则表达式的支持,或者提供了现成的代码库供调用。本文以ASP环境中常见的处理任务为例,介绍正则表达式的应用技巧。

  一、检验密码和邮件地址的格式

  我们的第一个实例示范正则表达式的一项基本功能:抽象地描述任意复杂的字符串。它的意思就是,正则表达式给予程序员一种形式化的字符串描述方法,只需很少的代码即可描述出应用遇到的任意字符串模式。例如,对于不从事技术工作的人来说,密码格式的要求可以描述如下:密码的第一个字符必须是字母,密码最少4个字符且不超过15个字符,密码不能包含除字母、数字和下划线以外的字符。

  作为程序员,我们必须把上面对密码格式的自然语言描述转换成其他形式,使得ASP页面能够理解并应用它来防止非法的密码输入。描述这个密码格式的正则表达式是:^[a-zA-Z]\w{3,14}$。

  在ASP应用里,我们可以把密码验证过程写成可重用的函数,如下所示:

Function TestPassword(strPassword) 
  Dim re 
  Set re = new RegExp

re.IgnoreCase = false 
  re.global = false 
  re.Pattern = "^[a-zA-Z]\w{3,14}$"

TestPassword = re.Test(strPassword) 
  End Function

  下面我们把这个检验密码格式的正则表达式和自然语言描述对比着看看:

  密码的第一个字符必须是字母:正则表达式描述是“^[a-zA-Z]”,其中“^”表示字符串的开始,连字符告诉RegExp匹配指定范围的所有字符。

  密码最少4个字符且不超过15个字符:正则表达式描述是“{3,14}”。

  密码不能包含除字母、数字和下划线以外的字符:正则表达式描述是“\w”。

  几点说明:{3,14}表示前面的模式匹配至少3个、但不超过14个的字符(加上第一个字符就成了4到15个字符)。注意花括号内的语法要求极其严格,不允许在逗号的两边加入空格。如果加入了空格,它将对正则表达式的含义产生影响,导致密码格式检验时产生错误。另外,上面的正则表达式末尾也没有加上“$”字符。$字符使得正则表达式匹配字符串直至末尾,确保合法的密码后面没有加上任何其他字符。

  类似于密码格式检验,检查email地址的合法性也是一个很常见的问题,用正则表达式进行简单的email地址检验可以实现如下:

<% 
  Dim re 
  Set re = new RegExp

re.pattern = "^\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,3}$" 
  Response.Write re.Test("aabb@yahoo.com") 
  %> 
------------------------------------------------------
二、提取HTML页面的特定部分

  从HTML页面提取内容所面临的主要问题是,我们必须寻找一种方法精确地识别出自己想要的那一部分内容。例如,下面是一个显示新闻标题的HTML代码片断:

<table border="0" width="11%" class="Somestory"> 
  <tr> 
  <td width="100%"> 
  <p align="center">其他内容...</td> 
  </tr> 
  </table> 
  <table border="0" width="11%" class="Headline"> 
  <tr> 
  <td width="100%"> 
  <p align="center">伊拉克战争!</td> 
  </tr> 
  </table> 
  <table border="0" width="11%" class="Someotherstory"> 
  <tr> 
  <td width="100%"> 
  <p align="center">其他内容...</td> 
  </tr> 
  </table>

  观察上述代码,很容易看出新闻标题由位于中间的表格显示,它的class属性设置为Headline。如果HTML页面非常复杂,使用Microsoft IE从5.0开始提供的一项附加功能可以只查看被选中部分页面的HTML代码,请访问http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解详情。对于本例,我们假定这是唯一class属性设置为Headline的表格。现在我们要创建正则表达式,通过正则表达式找到这个Headline表格并把这个表格包含到自己的页面中。首先是编写支持正则表达式的代码:

<% 
  Dim re, strHTML 
  Set re = new RegExp ' 创建正则表达式对象

re.IgnoreCase = true 
  re.Global = false ' 第一次匹配之后结束查找 
  %>

  下面考虑一下我们要提取的区域:在这里,我们要提取的是整个<table>结构,包括结束标记和新闻标题的文本。因此查找的起始字符应该是<table>开始标记: re.Pattern = "<table.*(?=Headline)"。这个正则表达式匹配表格的开始标记,能够返回开始标记直至“Headline”之间的所有内容(换行除外)。下面是返回已匹配HTML代码的方法:

' 把所有匹配的HTML代码放入Matches集合 
  Set Matches = re.Execute(strHTML)

' 显示所有匹配的HTML代码 
  For Each Item in Matches 
  Response.Write Item.Value 
  Next

' 显示其中一项 
  Response.write Matches.Item(0).Value

  运行这段代码处理前面显示的HTML片断,正则表达式返回一次匹配的内容如下: <table border="0" width="11%" class="。正则表达式中的“(?=Headline)”没有获取字符,所以不能看到表格class属性的值。要获取表格剩余部分的代码也相当简单: re.Pattern = "<table.*(?=Headline)(.|\n)*?</table>"。其中:“(.|\n)”后面的“*”匹配0个到多个任意字符;而“?”使得“*”匹配范围最小化,即在找到表达式的下一部分之前匹配尽可能少的字符。</table>是表格的结束标记。

  “?”限制符非常重要,它防止了表达式返回其他表格的代码。例如对于前面给出的HTML代码片断,如果删除这个“?”则返回内容将是:

<table border="0" width="11%" class="Headline"> 
  <tr> 
  <td width="100%"> 
  <p align="center">伊拉克战争!</td> 
  </tr> 
  </table> 
  <table border="0" width="11%" class="Someotherstory"> 
  <tr> 
  <td width="100%"> 
  <p align="center">其他内容...</td> 
  </tr> 
  </table>

  返回的内容不仅包含了Headline表的<table>标记,而且还包含了Someotherstory表格,由此可以看出,这里的“?”是必不可少的。

  本例假设了一些相当理想化的前提。实际应用中情况往往要复杂得多,特别是你对正在使用的源HTML代码的编写没有任何影响力时,编写ASP代码尤为困难。最有效的方法是,多花些时间分析待提取内容附近的HTML,经常地测试,确保提取出来的内容正是自己所需要的。另外,应当重视并处理正则表达式不能匹配源HTML页面任何内容的情形。内容的更新可能非常快速,不要只因为别人改变了内容的格式而让自己的页面出现低级可笑的错误。
----------------------------------------------------
三、解析文本数据文件

  数据文件的格式和种类很多,XML文档、结构化文本甚至非结构化文本都经常成为ASP应用的数据源。下面我们要看的一个例子是使用限定符的结构化文本文件。限定符(比如引号)表示字符串各个部分不可分割,即使字符串内部包含把记录分隔成字段的分隔符也一样。

  下面是一个简单的结构化文本文件:

姓,名, 电话, 说明 
  孙,悟空, 312 555 5656, ASP很好 
  猪,八戒, 847 555 5656, 我是电影制片人

  这个文件非常简单,它的第一行是标题,下面两行是用逗号作为分隔符的记录。要解析这个文件也很简单,只需先把文件分割成行(根据换行符号),然后把各个记录按照字段分割。但是,如果我们在某个字段内容中加入了逗号:

姓,名, 电话, 说明 
  孙,悟空, 312 555 5656, 我喜欢ASP,还有VB和SQL 
  猪,八戒, 847 555 5656, 我是电影制片人

  解析第一个记录时就会出现问题,因为在只认可逗号分隔符的解析器看来它的最后一个字段包含了两个字段的内容。为了避免出现这类问题,包含分隔符的字段必须用限定符包围。单引号就是一种常用的限定符。把上面的文本文件加上单引号限定符之后,它的内容如下所示:

姓,名, 电话, 说明 
  孙,悟空, 312 555 5656, '我喜欢ASP,还有VB和SQL' 
  猪,八戒, 847 555 5656, '我是电影制片人'

  现在我们能够肯定哪一个逗号是分隔符、哪一个逗号是字段内容了,即只需把引号内部出现的逗号视为字段的内容。接下来我们要做的就是实现一个正则表达式解析器,由这个解析器确定何时根据逗号分割字段、何时把逗号视为字段内容。

  这里的问题与大多数正则表达式所面临的略有不同。通常我们查看的是文本的一小部分,看看它是否能够和正则表达式匹配。但在这里,只有考虑了整行文本之后我们才能可靠地判断出哪些内容位于引号之内。

  下面是一个说明该问题的例子。从某个文本文件随意抽取半行内容,得到:1, 沙滩, 黑色, 21, ', 狗, 猫, 鸭子, ', 。在这个例子中,因为“1”的左边还有其他数据,要解析清楚它的内容是极其困难的。我们不知道这个数据片断的前面有多少单引号,从而也就无法判断哪些字符位于引号之内(在引号之内的文本解析时不能分割)。如果这个数据片断之前有偶数个(或者没有)单引号,那么“', 狗, 猫, 鸭子, '”是用引号界定的字符串且不可分割。如果前面的引号数量是奇数,那么“1, 沙滩, 黑色, 21, '”是某个字符串的结束部分且不可分割。

  因此,正则表达式必须分析整行文本,全面考虑出现了多少引号才能确定字符是处在引号对的内部还是外部,即:,(?=([^']*'[^']*')*(?![^']*'))。这个正则表达式首先找到一个引号,然后继续查找并保证逗号后面的单引号数量或者是偶数、或者是0。该正则表达式以下面这个判断为基础:如果逗号后面的单引号数量是偶数,那么这个逗号位于字符串之外。下表给出了更详细的说明:

, 寻找一个逗号 
  (?= 继续向前查找以匹配下面这个模式: 
  ( 开始一个新的模式 
  [^']*' [非引号字符]0个或者多个,然后是一个引号 
  [^']*'[^']*) [非引号字符]0个或者多个,然后是一个引号。结合前面的内容之后它匹配引号对 
  )* 结束模式并匹配整个模式(引号对)0次或者多次 
  (?! 向前查找,排除此模式 
  [^']*' [非引号字符]0个或者多个,然后是一个引号 
  ) 结束模式

  下面是一个VBScript函数,它接受一个字符串参数,根据字符串中的逗号分隔符、单引号限定符分割字符串,返回结果数组:

Function SplitAdv(strInput) 
  Dim objRE 
  Set objRE = new RegExp

' 设置RegExp对象 
  objRE.IgnoreCase = true 
  objRE.Global = true 
  objRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"

' Replace方法用chr(8)替换我们要用到的逗号,chr(8)即\b 
  ' 字符,\b在字符串中出现的可能极为微小。 
  ' 然后我们根据\b把字符串分割保存到数组 
  SplitAdv = Split(objRE.Replace(strInput, "\b"), "\b") 
  End Function

  总而言之,用正则表达式解析文本数据文件具有高效、缩短开发时间的优点,能够节省大量分析文件、根据复杂的条件提取有用数据的时间。在一个迅速发展的环境中仍会有许多传统的数据可资利用,掌握如何构造高效的数据分析例程将是一种宝贵的技能。 
-------------------------------------------------------------------
四、字符串替换

  在最后一个例子中我们要看看VBScript正则表达式的替换功能。ASP经常用于动态地格式化从各种数据源获得的文本。利用VBScript正则表达式的强大功能,ASP能够动态地改变匹配的复杂文本。通过加入HTML标记突出显示部分单词就是一种常见的应用,比如突出显示搜索结果中的搜索关键词。

  为说明实现方法,下面我们来看一个突出显示字符串中所有“.NET”的例子。这个字符串可以从任何地方获得,比如数据库或者其他Web网站。

<% 
  Set regEx = New RegExp 
  regEx.Global = true 
  regEx.IgnoreCase = True

' 正则表达式模式, 
  ' 寻找任何结尾为“.NET”的单词或者URL。 
  regEx.Pattern = "(\b[a-zA-Z\._]+?\.NET\b)"

' 用于测试替换功能的字符串 
  strText = "微软建立了一个新网站www.ASP.NET。"

' 调用正则表达式的Replace方法 
  ' $1表示把匹配的文本插入当前位置 
  Response.Write regEx.Replace(strText, _ 
  "<b style='color: #000099; font-size: 18pt'>$1</b>") 
  %>

  这个例子中有几个重要的地方必须注意。整个正则表达式被放入了一对圆括号中,它的作用是截取所有匹配的内容供以后使用,这些内容在替换文本中通过$1引用。类似的截取每次替换可以使用多达9个,分别通过$1到$9引用。正则表达式的Replace方法和VBScript本身的Replace函数不同,它只需要两个参数:被搜索的文本,替换用的文本。

  在这个例子中,为了突出显示搜索到的“.NET”字符串,我们用粗体标记以及其他样式属性来包围这些字符串。使用这种搜索和替换技术,我们能够方便地为网站搜索程序加上突出显示搜索关键词的功能,或者自动为页面中出现的关键词加上指向其他页面的链接。

  结束语

  希望本文介绍的几种正则表达式技巧对你在何时、如何应用正则表达式有所启发。虽然本文的例子用VBScript编写,但在ASP.NET中正则表达式同样也大有用武之地,它是服务器端控件表单检验的主要机制之一,而且通过System.Text.RegularExpressions命名空间导出到了整个.NET框架之中。

(0)

相关推荐

  • 正则表达式 应用四则

    以前就想总结一下,一直没有时间,今天看见了一篇好文,特此贡献出来,尽情享受正则的强大功能吧!! 以下为正文内容: ------------------------------------------------------------ 正则表达式(Regular Expression)为字符串模式匹配提供了一种高效.方便的方法.几乎所有高级语言都提供了对正则表达式的支持,或者提供了现成的代码库供调用.本文以ASP环境中常见的处理任务为例,介绍正则表达式的应用技巧. 一.检验密码和邮件地址的格式

  • 正则表达式在网页处理中的应用四则

    正则表达式(Regular Expression)为字符串模式匹配提供了一种高效.方便的方法.几乎所有高级语言都提供了对正则表达式的支持,或者提供了现成的代码库供调用.本文以ASP环境中常见的处理任务为例,介绍正则表达式的应用技巧. 一.检验密码和邮件地址的格式 我们的第一个实例示范正则表达式的一项基本功能:抽象地描述任意复杂的字符串.它的意思就是,正则表达式给予程序员一种形式化的字符串描述方法,只需很少的代码即可描述出应用遇到的任意字符串模式.例如,对于不从事技术工作的人来说,密码格式的要求可

  • Python利用正则表达式实现计算器算法思路解析

    (1)不使用eval()等系统自带的计算方法 (2)实现四则混合运算.括号优先级解析 思路: 1.字符串预处理,将所有空格去除 2.判断是否存在括号运算,若存在进行第3步,若不存在则直接进入第4步 3.利用正则表达式获取最底层括号内的四则运算表达式 4.将四则运算表达式进行预处理:表达式开头有负数时,在表达式前加上一个0 5.利用re.split().re.findall()方法,通过加减符号,对四则运算进行拆分为乘除运算式和数字,并保留对应的位置下标. 6.利用re.split().re.fi

  • 强大的Perl正则表达式实例详解

    一.介绍 正则表达式各语言都有自己的规范,但是基本都差不多,都是由元字符的组合来进行匹配:由于Nmap内嵌的服务与版本探测是使用的Perl正则规范,因此此篇博客记录一下Perl正则的相关内容,方便后期查阅. 二.Perl正则例子 下面的例子可能有不足之处,有些来源于博客,没有验证: 1. 匹配IP地址:\d+\.\d+\.\d+\.\d+ \d:匹配一个数字字符,\d+:匹配一次或多次数字字符. \.:使用转义字符匹配'.'. 2. 匹配邮箱类似于123456@qq.com: /^[a-zA-Z

  • 史上最全的PHP正则表达式(手机号需要加上177-***)

    首先看下正则表达式思维导图: 一.校验数字的表达式  1 数字: ^[0-9]*$ 2 n位的数字: ^\d{n}$ 3 至少n位的数字: ^\d{n,}$ 4 m-n位的数字: ^\d{m,n}$ 5 零和非零开头的数字: ^(0|[1-9][0-9]*)$ 6 非零开头的最多带两位小数的数字: ^([1-9][0-9]*)+(.[0-9]{1,2})?$ 7 带1-2位小数的正数或负数: ^(\-)?\d+(\.\d{1,2})?$ 8 正数.负数.和小数: ^(\-|\+)?\d+(\.\

  • JavaScript中正则表达式的概念与应用

    今天和大家分享一些关于正则表达式的知识和在javascript中的应用.正则表达式简单却又不简单,比如以前我的老师给我们讲的时候就说这个东西入门的话二三十分钟就精通了,一旦没有入门那就可几天都补不回来.于是当初就很认真的学习并研究了它.没想到正则表达式不仅代码简洁,而且在实际的操作中为前端工程师们省事了不少.总所周知,用户在浏览页面的时候,唯一和数据打交道的就是表单了,关于表单的验证,其实有很多中方法,接下来,我就会给大家分享两种,一种是普通繁琐的方法,一种是正则表达式,看看它到底能够给表单带来

  • Javascript中正则表达式的使用及基本语法

    前面的话 正则表达式在人们的印象中可能是一堆无法理解的字符,但就是这些符号却实现了字符串的高效操作.通常的情况是,问题本身并不复杂,但没有正则表达式就成了大问题.javascript中的正则表达式作为相当重要的知识,本文将介绍正则表达式的基础语法 定义 正则表达式(Regular Expression)是一门简单语言的语法规范,是强大.便捷.高效的文本处理工具,它应用在一些方法中,对字符串中的信息实现查找.替换和提取操作 javascript中的正则表达式用RegExp对象表示,有两种写法:一种

  • Replace中的正则表达式

    replace:把原有的字符替换成新的字符 1. replace的字符串替换 var str = 'pku2016pku2017'; str = str.replace('pku', 'pkusoft'); console.log(str); // pkusoft2016pku2017 在不使用正则的情况下,每次执行只能替换一个字符,每次执行都是从0开始替换,有重复的,无法全部替换 2. replace的正则的替换 str = str.replace(/pku/g, 'pkusoft'); //

  • 正则表达式中test、exec、match的区别介绍及括号的用法

    test.exec.match的简单区别 1.test test 返回 Boolean,查找对应的字符串中是否存在模式. var str = "1a1b1c"; var reg = new RegExp("1.", ""); alert(reg.test(str)); // true 2.exec exec 查找并返回当前的匹配结果,并以数组的形式返回. var str = "1a1b1c"; var reg = new Re

  • 关于日期正则表达式的思路详解

    1        概述 首先需要说明的一点,无论是Winform,还是Webform,都有很成熟的日历控件,无论从易用性还是可扩展性上看,日期的选择和校验还是用日历控件来实现比较好. 前几天在CSDN多个版块看到需要日期正则的帖子,所以整理了这篇文章,和大家一起讨论交流,如有遗漏或错误的地方,还请大家指正. 日期正则一般是对格式有要求,且数据不是直接由用户输入时使用.因应用场景的不同,写出的正则也不同,复杂程度也自然不同.正则的书写需要根据具体情况具体分析,一个基本原则就是:只写合适的,不写复杂

随机推荐