Ruby程序中正则表达式的基本使用教程

Ruby大部分的内置类型都和其它的编程语言很相似。主要有strings,integers,floats,arrays等等。然而,只有脚本语言,如Ruby,Perl,和awk等提供了内置表达式类型的支持。正则表达式尽管比较隐蔽,但却是一个很强大的文本处理工具。

正则表达式是使用指定的模式匹配字符串的一种简单的方法。在Ruby中,创建正则表达式的典型方式是把模式写在两个斜线之间/pattern/。

毕竟,Ruby就是Ruby,正则表达式也是对象,也能像对象般操作。

例如,你可以使用下面的正则表达式写一个模式,它匹配一个字符串中包含有Perl或Python。

<!--more-->

/Perl|Python/

在正斜线体内,是两个我们要匹配的字符串,它们使用"|"分隔。这个管道符的意思是"左边的或者右边的",在这个模式中是Perl或者Python。

你还可以在模式中使用括号,就像是在算术表达式中使用的那样,因此这个模式还可以写成

/P(erl|ython)/

你还可以在模式中指定重复。例如加号,/ab+c/匹配字符串中一个a后面有一个或多个b然后跟着是一个c。把加号换成星号,/ab*c/创建的正则表达式是匹配一个a后面跟着0个或多个b然后跟着是一个c。

你还可以在模式中匹配一组字符。常用的字符类型例子有\s,它匹配一个空白字符(space,tab,换行符,等等);\d匹配任意数字;\w匹配任意的典型单词字符。句号(.)匹配(基本上)任意字符。

我们把所有这些组合起来,做成实用的正则表达式。

/\d\d:\d\d:\d\d/ # a time such as 12:34:56
/Perl.*Python/  # Perl, zero or more other chars, then Python
/Perl Python/  # Perl, a space, and Python
/Perl *Python/  # Perl, zero or more spaces, and Python
/Perl +Python/  # Perl, one or more spaces, and Python
/Perl\s+Python/ # Perl, whitespace characters, then Python
/Ruby (Perl|Python)/ # Ruby, a space, and either Perl or Python

一但创建了一个模式,不能使用它是件很郁闷的事情。匹配操作符=~用来对一个字符串进行正则表达式匹配。如果匹配成功,=~返回第一次匹配成功的位置,否则它返回nil。也就是说,你可以在if和while的条件声明中使用正则表达式。例如下面的代码片段,

如果字符串中包含有文本Perl或Python时,输出一条信息。

puts "Scripting language mentioned: #{line}" if line =~ /Perl|Python/

你能使用Ruby替换所有出现有Perl和Python的地方。

line.gsub(/Perl|Python/, 'Ruby')

从iHower的Ruby on Rails实战圣经中摘一个示例,用正则表达式抓取手机号码:

phone = "139-1234-5678"
if phone =~ /(\d{3})-(\d{4})-(\d{4})/
 start_with = $1
 mid_num = $2
 end_as = $3
end

一般规则(为正常显示,都放在代码块内)

  • /a/匹配字符a。
  • /\?/匹配特殊字符?。特殊字符包括^, $, ? , ., /, \, [, ], {, }, (, ), +, *.
  • .匹配任意字符,例如/a./匹配ab和ac。
  • /[ab]c/匹配ac和bc,[]之间代表范围。例如:/[a-z]/ , /[a-zA-Z0-9]/。
  • /[^a-zA-Z0-9]/匹配不在该范围内的字符串。
  • /[\d]/代表任意数字
  • /[\w]/代表任意字母,数字或者_
  • /[\s]/代表空白字符,包括空格,TAB和换行。
  • /[\D]/,/[\W]/,/[\S]/均为上述的否定情况。

高级规则

  • ?代表0或1个字符。/Mrs?\.?/匹配"Mr","Mrs","Mr.","Mrs."。
  • *代表0或多个字符。/Hello*/匹配"Hello","HelloJack"。
  • +代表1或多个字符。/a+c/匹配:"abc","abbdrec"等等。
  • /d{3}/匹配3个数字。
  • /d{1,10}/匹配1-10个数字。
  • /d{3,}/匹配3个数字以上。
  • /([A-Z]\d){5}/匹配首位是大写字母,后面4个是数字的字符串。

正则表达式操作

String和RegExp均支持=~和match两个查询匹配方法:

puts "I can say my name" =~ /name/ #-> 13

a = /name/.match("I can say my name, my name I can say") #-> a is MatchData
puts a[0] #-> name

可以看出,如果能够匹配,=~返回匹配的字符串位置,而match返回一个MatchData对象。如果不匹配,则返回nil。MatchData可以取出其中符合各个子匹配(或子模式)的内容,看下面的例子:

b1=/[A-Za-z]+,[A-Za-z]+,Mrs?\./.match("Jack,Wang,Mrs., nice person")
puts b1[0] #-> Jack,Wang,Mrs

b2=/(([A-Za-z]+),([A-Za-z]+)),Mrs?\./.match("Jack,Wang,Mrs., nice person:)
puts b2[0] #-> Jack,Wang,Mrs
puts b2[1] #-> Jack,Wang
puts b2[2] #-> Jack
puts b2[3] #-> Wang

m[0]返回匹配匹配主表达式的字符串,下面的方法是等同的:m[n]==m.captures[n]

Ruby也自动的为我们填写一些全局变量,它们以数字做名,$1, $2, 等等,$1包含的是正则表达式中从左侧开始的第一对小括号内的子模式所匹配的字符串,以此类推。我们看出匹配时,是从外到内,从左到右的顺序。

贪婪量词和不贪婪量词

量词*(表示零个或多个)和+(表示一个或多个)是贪婪的,它们会匹配尽可能多的字符,我们可以在*和+后面加一个?,使它成为非贪婪量词:

下面代码是: 1个或多个字符后接一个感叹号。

teststr="abcd!efg!"
match=/.+!/.match(teststr)
puts match[0] #-> abcd!efg!

limitmatch=/.+?!/.match(teststr)
puts limitmatch[0] #-> abcd!

锚是指必须满座一定的条件,才能继续匹配:

  • ^     行首
  • $     行尾
  • \A    字符串的开始
  • \z    字符串的结尾
  • \Z    字符串的结尾(不包括最后的换行符)
  • \b    单词边界
c=/\b\w+\b/.match("!!Stephen**")

puts c[0] #-> Stephen

前视断言

前视断言表示想要知道下一个指定的是什么,但并不匹配

肯定的前视断言 (?=)
假设我们想要匹配一个数的序列,该序列以一个圆点结束,但并不想把圆点作为模式匹配的一部分

teststr="123 456 789. 012"
m=/\d+(?=\.)/.match(teststr)
puts m[0] #-> 789

否定的前视断言 (?!)
上例,如果/\d+(?=\.)/改为/\d+(?!\.)/,则puts m[0]输出显示为 123 。

修饰语

修饰语位于正则表达式最结束正则表达式的正斜杠的后面

1.i使正则表达式对大小写不敏感
例如,/abc/i可以匹配Abc,abc,ABC等。

2.m使得正则表达式可以和任何字符匹配,包括换行符,通常情况下圆点通配符不匹配换行符。
字符串与正则表达式的相互转换

字符串内插进正则表达式

teststr="a.c"
re=/#{Regexp.escape(teststr)}/
puts re.match("a.c")[0] #-> a.c
test=re.match("abc")
puts test[0] #-> Nil

正则表达式转换成字符串

puts /abc/.inspect #-> /abc/

使用正则表达式的常见方法:

  • 用于if和while等
  • 用于gsub、grep等
  • 用于find_all、scan等

例如,puts "test 1 2 and test 3 4".scan(/\d/)会输出["1","2","3","4"]。

(0)

相关推荐

  • 详解Ruby中正则表达式对字符串的匹配和替换操作

    正则匹配 说起Ruby当然要提起它的正则表达式机制,正则表达式作为一个强大的匹配语言已经越来越多的使用到不同的领域当中,从字符串验证,匹配,到网页抽取等.虽然有些人诟病与正则表达式的匹配效率,但是考虑到正则的强大匹配能力也就无所谓了. 说起Ruby正则表达式不就不能不说起Ruby的=~和match两种匹配方式,我们还是用实例来说明一下这两种匹配方式的区别吧.先来说一说=~的用法吧: message="afhadhffkdf414j" regex=/[a-z](\d{3})[a-z]/

  • ruby 正则表达式 教程

    我们再看一个更有趣的程序.这次我们来测试一个字符串是否和一个由简明模式(concise pattern)编码产生的描述相匹配. 在这些模式(pattern)里,一些字符或字符组合都有独特的意义,包括: 复制代码 代码如下: []  范围描述符 (比如,[a - z] 表示在a 到 z 范围内的一个字母) \w  字母或数字;相当于 [0-9A-Za-z] \W  非字母,数字 \s  [ \t\n\r\f]空字符;相当于 [ \t\n\r\f] \S  非空字符 \d  [0-9]数字;相当于 

  • 详细介绍Ruby中的正则表达式

    正则表达式是一种特殊序列的字符,它通过使用有专门语法的模式来匹配或查找其他字符串或字符串集合. 语法 正则表达式从字面上看是一种介于斜杠之间或介于跟在 %r 后的任意分隔符之间的模式,如下所示: /pattern/ /pattern/im # 可以指定选项 %r!/usr/local! # 一般的分隔的正则表达式 实例 #!/usr/bin/ruby line1 = "Cats are smarter than dogs"; line2 = "Dogs also like m

  • Ruby中使用正则表达式的基础指引

    正则表达式的内建支持通常只限于脚本语言如Ruby,Perl和awk等,这是一个耻辱:尽管正则表达式很神秘,但它是一个强大的文本处理工具.通过内建而不是通过程序库接口来支持它,有很大的不同. 正则表达式只是一种指定字符模式的方法,这个字符模式会在字符串中进行匹配.在Ruby中,通常在斜线之间(/pattern/)编写模式(pattern)来创建正则表达式.同时,Ruby就是Ruby,正则表达式是对象并且可以当作对象来操作. 比如,可以使用如下的正则表达式来编写模式,它会匹配包含Perl或Pytho

  • ruby 正则表达式详解及示例代码

    在编写puppet的pp文件中,会用到很多ruby的正则表达式,常用的正则如下: 正则表达式: [codesyntax lang="ruby"] {}: 重复次数(如 {4}表示前面的会重复出现恰好4次) {m,n}: 前面元素最少出现m次,最多出现n次 []: 范围描述符(如 [a-z]表示在a-z范围内的一个字母) \w: 字符或数字,相当于[0-9A-Za-z] \W: 非字母或数字 \s: [\t\n\r\f]空字符,相当于[\t\n\r\f] \S: 非空字符 \d: [0-

  • 浅析Ruby中的正则表达式的使用

    如果只是需要中查找字符串的 text, 不要使用正则表达式:string['text'] 针对简单的结构, 你可以直接使用string[/RE/]的方式来查询. match = string[/regexp/] # get content of matched regexp first_group = string[/text(grp)/, 1] # get content of captured group string[/text (grp)/, 1] = 'replace' # strin

  • 举例初步讲解Ruby中的正则表达式

    正则表达式是一个特殊的字符序列可以帮助匹配或者找到其他字符串或串套,使用的模式保持一个专门的语法. 正则表达式文本是一个模式之间的斜线之间或任意分隔符 %r 如下: 语法: 复制代码 代码如下: /pattern/ /pattern/im    # option can be specified %r!/usr/local! # general delimited regular expression 例如: #!/usr/bin/ruby line1 = "Cats are smarter t

  • 使用Ruby re模块创建复杂的正则表达式

    例如,考虑下面的匹配日期的正则表达式: 复制代码 代码如下: /\A((?:19|20)[0-9]{2})[\- \/.](0[1-9]|1[012])[\- \/.](0[1-9]|[12][0-9]|3[01])\z/ 使用Re之后,正则表达式可以短小易读的表达式为基础,一步一步地构建出来,例如: 复制代码 代码如下: require 're' include Re delim                = re.any("- /.")century_prefix      

  • Ruby程序中正则表达式的基本使用教程

    Ruby大部分的内置类型都和其它的编程语言很相似.主要有strings,integers,floats,arrays等等.然而,只有脚本语言,如Ruby,Perl,和awk等提供了内置表达式类型的支持.正则表达式尽管比较隐蔽,但却是一个很强大的文本处理工具. 正则表达式是使用指定的模式匹配字符串的一种简单的方法.在Ruby中,创建正则表达式的典型方式是把模式写在两个斜线之间/pattern/. 毕竟,Ruby就是Ruby,正则表达式也是对象,也能像对象般操作. 例如,你可以使用下面的正则表达式写

  • 在Ruby程序中连接数据库的详细教程

    本章节将向您讲解如何使用 Ruby 访问数据库.Ruby DBI 模块为 Ruby 脚本提供了类似于 Perl DBI 模块的独立于数据库的接口. DBI 即 Database independent interface,代表了 Ruby 独立于数据库的接口.DBI 在 Ruby 代码与底层数据库之间提供了一个抽象层,允许您简单地实现数据库切换.它定义了一系列方法.变量和规范,提供了一个独立于数据库的一致的数据库接口. DBI 可与下列进行交互: ADO (ActiveX Data Object

  • Oracle中正则表达式的使用实例教程

    前言 正则表达式已经在很多软件中得到广泛的应用,包括*nix(Linux, Unix等),HP等操作系统,PHP,C#,Java等开发环境. 本文主要介绍了关于Oracle中正则表达式的使用方法,下面话不多说了,来一起看看详细的介绍. Oracle使用正则表达式离不开这4个函数:regexp_like.regexp_substr.regexp_instr.regexp_replace. regexp_like 该函数只能用于条件表达式,和 like 类似,但是使用的正则表达式进行匹配 //查询所

  • C语言程序中递归算法的使用实例教程

    1.问题:计算n! 数学上的计算公式为: n!=n×(n-1)×(n-2)--2×1 使用递归的方式,可以定义为: 以递归的方式计算4! F(4)=4×F(3) 递归阶段 F(3)=3×F(2) F(2)=2×F(1) F(1)=1 终止条件 F(2)=(2)×(1) 回归阶段 F(3)=(3)×(2) F(4)=(4)×(6) 24 递归完成 以递归方式实现阶乘函数的实现: int fact(int n) { if(n < 0) return 0; else if (n == 0 || n =

  • 在Python程序中实现分布式进程的教程

    在Thread和Process中,应当优选Process,因为Process更稳定,而且,Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上. Python的multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上.一个服务进程可以作为调度者,将任务分布到其他多个进程中,依靠网络通信.由于managers模块封装很好,不必了解网络通信的细节,就可以很容易地编写分布式多进程程序. 举个例子:如果我们已经有一个通

  • Ruby程序中创建和解析XML文件的方法

    使用builder创建XML builder安装方法: gem install builder require 'builder' x = Builder::XmlMarkup.new(:target => $stdout, :indent => 1) #":target =>$stdout"参数:指示输出内 容将被写向标准输出控制台 #":indent =>1"参数:XML输出形式将被缩 进一个空格字符x.instruct! :xml, :

  • 实例解析Ruby程序中调用REXML来解析XML格式数据的用法

    REXML 是由 Sean Russell 编写的库.它不是 Ruby 的唯一 XML 库,但它是很受欢迎的一个,并且是用纯 Ruby 编写( NQXML 也是用 Ruby 编写的, 但 XMLParser 封装了用 C 编写的 Jade 库). 在他的 REXML 概述中,Russell 评论道: 我有这样的问题:我不喜欢令人困惑的 API.有几种用于 Java 实现的 XML 解析器 API.其中大多数都遵循 DOM 或 SAX,并且在基本原理上与不断出现的众多 Java API 非常相似.

  • 实例解析Java程序中正则表达式的贪婪模式匹配

    贪婪模式(Greedy): 数量表示符默认采用贪婪模式,除非另有表示.贪婪模式的表达式会一直匹配下去,直到无法匹配为止.如果你发现表达式匹配的结果与预期的不符,很有可能是因为--你以为表达式只会匹配前面几个字符,而实际上它是贪婪模式,所以会一直匹配下去. 贪婪与非贪婪,加上?为非贪婪: var s = '1023000'.match(/(\d+)(0*)/); s ["1023000", "1023000", ""] var s = '10230

  • Ruby程序中发送基于HTTP协议的请求的简单示例

    1. 建立HTTP连接(通过GET方式发送请求参数) require "open-uri" #如果有GET请求参数直接写在URI地址中 uri = 'http://uri' html_response = nil open(uri) do |http| html_response = http.read end puts html_response require "open-uri" #如果有GET请求参数直接写在URI地址中 uri = 'http://uri'

  • 利用RJB在Ruby on Rails中使用Java代码的教程

    开始之前 关于本教程 Ruby on Rails (Rails) 是用 Ruby 编写的一个 full-stack Web 应用程序框架,而 Ruby 是一种功能丰富的.免费的.可扩展的.可移植的.面向对象的脚本编制语言.Rails 在 Web 应用程序开发人员之间非常流行.通过它,可以快速有效地开发 Web 应用程序,并将其部署到任何 Web 容器中,例如 IBM? WebSphere? 或 Apache Tomcat. 在 Rails 和类似的 Web 应用程序开发框架出现之前,用于 Web

随机推荐