Java正则表达式之Pattern类实例详解

目录
  • 前言
  • Pattern 概述
  • Pattern 匹配模式(Pattern flags)
  • 代码示例
    • 多行模式:Pattern.MULTILINE 示例
    • 忽略大小写:Pattern.CASE_INSENSITIVE 示例
    • 启用注释:Pattern.COMMENTS 示例
    • 启用 dotall 模式:Pattern.DOTALL 示例
    • 平白字符模式 模式:Pattern.LITERAL 示例
  • 附:贪婪匹配与懒惰匹配
  • 总结

前言

这个系列的文章我们使用以下的顺序进行讲解:

  • Pattern 详解;
  • Matcher 详解;
  • 正则表达式语法详解。

接下来先来介绍 Pattern 类。

在Java中,java.util.regex包定义了正则表达式使用到的相关类,其中最主要的两个类为:Pattern、Matcher:

  • Pattern 编译正则表达式后创建一个匹配模式;
  • Matcher 使用Pattern实例提供的正则表达式对目标字符串进行匹配,是真正影响搜索的对象。。

另加一个新的例外类,PatternSyntaxException,当遇到不合法的搜索模式时,会抛出例外。

Pattern 概述

声明:public final class Pattern implements java.io.Serializable

Pattern 类有final修饰,可知他不能被子类继承。

含义:模式类,正则表达式的编译表示形式。

注意:此类的实例是不可变的,可供多个并发线程安全使用。

Pattern 匹配模式(Pattern flags)

compile( )方法有一个版本,它需要一个控制正则表达式的匹配行为的参数:

Pattern Pattern.compile(String regex, int flag)

flag 的取值范围

字段 说明
Pattern.UNIX_LINES         unix行模式,大多数系统的行都是以\n结尾的,但是少数系统,比如Windows,却是以\r\n组合来结尾的,启用这个模式之后,将会只以\n作为行结束符,这会影响到^、$和点号(点号匹配换行符)。
        通过嵌入式标志表达式 (?d) 也可以启用 Unix 行模式。
Pattern.CASE_INSENSITIVE         默认情况下,大小写不敏感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配,只要将UNICODE_CASE与这个标志合起来就行了。
        通过嵌入式标志表达式(?i)也可以启用不区分大小写的匹配。
        指定此标志可能对性能产生一些影响。
Pattern.COMMENTS ⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢         这种模式下,匹配时会忽略(正则表达式里的)空格字符(不是指表达式里的”//s”,而是指表达式里的空格,tab,回车之类)和注释(从#开始,一直到这行结束)。
        通过嵌入式标志表达式(?x) 也可以启用注释模式。
Pattern.MULTILINE         默认情况下,输入的字符串被看作是一行,即便是这一行中包好了换行符也被看作一行。当匹配“^”到“$”之间的内容的时候,整个输入被看成一个一行。启用多行模式之后,包含换行符的输入将被自动转换成多行,然后进行匹配。
        通过嵌入式标志表达式 (?m) 也可以启用多行模式。
Pattern.LITERAL         启用字面值解析模式。
        指定此标志后,指定模式的输入字符串就会作为字面值字符序列来对待。输入序列中的元字符或转义序列不具有任何特殊意义。
        标志 CASE_INSENSITIVE 和 UNICODE_CASE 在与此标志一起使用时将对匹配产生影响。其他标志都变得多余了。
        不存在可以启用字面值解析的嵌入式标志字符。
Pattern.DOTALL         在这种模式中,表达式 .可以匹配任何字符,包括行结束符。默认情况下,此表达式不匹配行结束符。
        通过嵌入式标志表达式 (?s) 也可以启用此种模式(s 是 “single-line” 模式的助记符,在 Perl 中也使用它)。
Pattern.UNICODE_CASE         在这个模式下,如果你还启用了CASE_INSENSITIVE标志,那么它会对Unicode字符进行大小写不敏感的匹配。默认情况下,大小写不明感的匹配只适用于US-ASCII字符集。
        指定此标志可能对性能产生影响。
Pattern.CANON_EQ         当且仅当两个字符的正规分解(canonical decomposition)都完全相同的情况下,才认定匹配。比如用了这个标志之后,表达式a/u030A会匹配?。默认情况下,不考虑规范相等性(canonical equivalence)。
        指定此标志可能对性能产生影响。

在这些标志里面,Pattern.CASE_INSENSITIVE,Pattern.MULTILINE,以及Pattern.COMMENTS是最有用的(其中Pattern.COMMENTS还能帮我们把思路理清楚,并且/或者做文档)。注意,你可以用在表达式里插记号的方式来启用绝大多数的模式。这些记号就在上面那张表的各个标志的下面。你希望模式从哪里开始启动,就在哪里插记号。

可以用OR (|)运算符把这些标志配合使用。

代码示例

多行模式:Pattern.MULTILINE 示例

我测试了一下,也就是说如果没有 MULTILINE 标志的话, ^ 和 $ 只能匹配输入序列的开始和结束;否则,就可以匹配输入序列内部的行结束符。测试代码如下:

import java.util.regex.*;

/**
 * 多行模式
 */
public class ReFlags_MULTILINE {

    public static void main(String[] args) {

        // 注意里面的换行符
        String str = "hello world\r\n" + "hello java\r\n" + "hello java";

        System.out.println("===========匹配字符串开头(非多行模式)===========");
        Pattern p = Pattern.compile("^hello");
        Matcher m = p.matcher(str);
        while (m.find()) {
            System.out.println(m.group() + "   位置:[" + m.start() + "," + m.end() + "]");
        }

        System.out.println("===========匹配字符串开头(多行模式)===========");
        p = Pattern.compile("^hello", Pattern.MULTILINE);
        m = p.matcher(str);
        while (m.find()) {
            System.out.println(m.group() + "   位置:[" + m.start() + "," + m.end() + "]");
        }

        System.out.println("===========匹配字符串结尾(非多行模式)===========");
        p = Pattern.compile("java$");
        m = p.matcher(str);
        while (m.find()) {
            System.out.println(m.group() + "   位置:[" + m.start() + "," + m.end() + "]");
        }

        System.out.println("===========匹配字符串结尾(多行模式)===========");
        p = Pattern.compile("java$", Pattern.MULTILINE);
        m = p.matcher(str);
        while (m.find()) {
            System.out.println(m.group() + "   位置:[" + m.start() + "," + m.end() + "]");
        }
    }
}

===========匹配字符串开头(非多行模式)===========
hello   位置:[0,5]
===========匹配字符串开头(多行模式)===========
hello   位置:[0,5]
hello   位置:[13,18]
hello   位置:[25,30]
===========匹配字符串结尾(非多行模式)===========
java   位置:[31,35]
===========匹配字符串结尾(多行模式)===========
java   位置:[19,23]
java   位置:[31,35]

忽略大小写:Pattern.CASE_INSENSITIVE 示例

有的时候,需要进行忽略大小写的匹配。该例子实现匹配摄氏温度和华氏温度,对于以C、c、F和f结尾的温度值都能匹配。

import java.util.regex.Pattern;

public class ReFlags_CASE_INSENSITIVE {

    public static void main(String[] args) {

        System.out.println("===========API忽略大小写===========");
        String moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";
        Pattern p = Pattern.compile(moneyRegex,Pattern.CASE_INSENSITIVE);

        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());
        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());

        System.out.println("===========不忽略大小写===========");
        moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";
        p = Pattern.compile(moneyRegex);

        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());
        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());

        System.out.println("===========正则内部忽略大小写===========");
        moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*(?i)[CF]";
        p = Pattern.compile(moneyRegex);

        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());
        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());

        System.out.println("===========内部不忽略大小写===========");
        moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";
        p = Pattern.compile(moneyRegex);

        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());
        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());
    }
}

===========API忽略大小写===========
-3.33c   true
-3.33C   true
===========不忽略大小写===========
-3.33c   false
-3.33C   true
===========正则内部忽略大小写===========
-3.33c   true
-3.33C   true
===========内部不忽略大小写===========
-3.33c   false
-3.33C   true

启用注释:Pattern.COMMENTS 示例

启用注释,开启之后,正则表达式中的空格以及#号行将被忽略。

import java.util.regex.Pattern;

public class ReFlags_COMMENTS {

    public static void main(String[] args) {

        System.out.println("===========API启用注释===========");
        String comments = "    (\\d)+#this is comments.";
        Pattern p = Pattern.compile(comments, Pattern.COMMENTS);
        System.out.println("1234   " + p.matcher("1234").matches());

        System.out.println("===========不启用注释===========");
        comments = "    (\\d)+#this is comments.";
        p = Pattern.compile(comments);
        System.out.println("1234   " + p.matcher("1234").matches());

        System.out.println("===========正则启用注释===========");
        comments = "(?x)    (\\d)+#this is comments.";
        p = Pattern.compile(comments);
        System.out.println("1234   " + p.matcher("1234").matches());

        System.out.println("===========不启用注释===========");
        comments = "    (\\d)+#this is comments.";
        p = Pattern.compile(comments);
        System.out.println("1234   " + p.matcher("1234").matches());

    }
}

===========API启用注释===========
1234   true
===========不启用注释===========
1234   false
===========正则启用注释===========
1234   true
===========不启用注释===========
1234   false

可以看到,#号到行尾的注释部分和前面的空白字符都被忽略了。正则表达式内置的启用注释为(?x)。

启用 dotall 模式:Pattern.DOTALL 示例

启用dotall模式,一般情况下,点号(.)匹配任意字符,但不匹配换行符,启用这个模式之后,点号还能匹配换行符。

import java.util.regex.Pattern;

public class ReFlags_DOTALL {

    public static void main(String[] args) {

        System.out.println("===========API启用DOTALL===========");
        String dotall = "<xml>(.)*</xml>";
        Pattern p = Pattern.compile(dotall, Pattern.DOTALL);
        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());

        System.out.println("===========不启用DOTALL===========");
        dotall = "<xml>(.)*</xml>";
        p = Pattern.compile(dotall);
        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());

        System.out.println("===========正则启用DOTALL===========");
        dotall = "(?s)<xml>(.)*</xml>";
        p = Pattern.compile(dotall);
        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());

        System.out.println("===========不启用DOTALL===========");
        dotall = "<xml>(.)*</xml>";
        p = Pattern.compile(dotall);
        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());

    }
}

===========API启用DOTALL===========
<xml>\r\n</xml>   true
===========不启用DOTALL===========
<xml>\r\n</xml>   false
===========正则启用DOTALL===========
<xml>\r\n</xml>   true
===========不启用DOTALL===========
<xml>\r\n</xml>   false

平白字符模式 模式:Pattern.LITERAL 示例

启用这个模式之后,所有元字符、转义字符都被看成普通的字符,不再具有其他意义。

import java.util.regex.Pattern;

public class ReFlags_LITERAL {

    public static void main(String[] args) {

        System.out.println(Pattern.compile("\\d", Pattern.LITERAL).matcher("\\d").matches());// true
        System.out.println(Pattern.compile("\\d", Pattern.LITERAL).matcher("2").matches());// false

        System.out.println(Pattern.compile("(\\d)+", Pattern.LITERAL).matcher("1234").matches());// false
        System.out.println(Pattern.compile("(\\d)+").matcher("1234").matches());// true

        System.out.println(Pattern.compile("(\\d){2,3}", Pattern.LITERAL).matcher("(\\d){2,3}").matches());// true
    }
}

附:贪婪匹配与懒惰匹配

考虑这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。

a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab和ab。

public static void main(String[] args) {
        String str = "北京市(海淀区)(朝阳区)";
        String paternStr = ".*(?=\\()";
        Pattern pattern = Pattern.compile(paternStr);
        Matcher matcher = pattern.matcher(str);
        if (matcher.find()) {
            System.out.println(matcher.group(0));
        }
}

上述方法的输出为:北京市(海淀区)

public static void main(String[] args) {
        String str = "北京市(海淀区)(朝阳区)";
        String paternStr = ".*?(?=\\()";
        Pattern pattern = Pattern.compile(paternStr);
        Matcher matcher = pattern.matcher(str);
        if (matcher.find()) {
            System.out.println(matcher.group(0));
        }
}

上述方法输出:北京市

总结

到此这篇关于Java正则表达式之Pattern类的文章就介绍到这了,更多相关Java正则表达式Pattern类内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • java正则表达式之Pattern与Matcher类详解

    Pattern.split方法详解 /** * 测试Pattern.split方法 */ @Test public void testPatternSplit() { String str = "{0x40, 0x11, 0x00, 0x00}"; // 分割符为:逗号, {,}, 空白符 String regex = "[,\\{\\}\\s]"; Pattern pattern = Pattern.compile(regex); /* * 1. split 方法

  • JAVA正则表达式 Pattern和Matcher

    1.简介: java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包. 它包括两个类:Pattern和Matcher Pattern 一个Pattern是一个正则表达式经编译后的表现模式. Matcher 一个Matcher对象是一个状态机器,它依据Pattern对象做为匹配模式对字符串展开匹配检查. 首先一个Pattern实例订制了一个所用语法与PERL的类似的正则表达式经编译后的模式,然后一个Matcher实例在这个给定的Pattern实例的模式控制下进行字

  • Java正则表达式Pattern和Matcher原理详解

    这篇文章主要介绍了Java正则表达式Pattern和Matcher原理详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 基本使用 Scanner中的使用正则表达式 //Scanner 支持的分组 Scanner cin=new Scanner("red a bbc").useDelimiter("\\s*a\\s*"); System.out.println(cin.next()); System.out.pri

  • 详解Java正则表达式中Pattern类和Matcher类

    前言 本文将介绍Java正则表达式中的Pattern类与Matcher类.首先我们要清楚指定为字符串的正则表达式必须首先被编译为pattern类的实例.因此如何更好的了解这两个类,是编程人员必须知道的. 以下我们就分别来看看这两个类: 一.捕获组的概念 捕获组可以通过从左到右计算其开括号来编号,编号是从1 开始的.例如,在表达式 ((A)(B(C)))中,存在四个这样的组: 1 ((A)(B(C))) 2 (A) 3 (B(C)) 4 (C) 组零始终代表整个表达式. 以 (?) 开头的组是纯的

  • Java正则表达式之Pattern类实例详解

    目录 前言 Pattern 概述 Pattern 匹配模式(Pattern flags) 代码示例 多行模式:Pattern.MULTILINE 示例 忽略大小写:Pattern.CASE_INSENSITIVE 示例 启用注释:Pattern.COMMENTS 示例 启用 dotall 模式:Pattern.DOTALL 示例 平白字符模式 模式:Pattern.LITERAL 示例 附:贪婪匹配与懒惰匹配 总结 前言 这个系列的文章我们使用以下的顺序进行讲解: Pattern 详解: Mat

  • Java正则表达式之split()方法实例详解

    本文实例讲述了Java正则表达式之split()方法.分享给大家供大家参考,具体如下: 1.方法介绍 (1)public String[] split(String regex) 根据给定正则表达式的匹配拆分此字符串 (2)public String[] split(String regex,int limit) 根据匹配给定的正则表达式来拆分此字符串 2.方法实例 /** * @Title:Split.java * @Package:com.you.data * @Description:Ja

  • java开发中嵌套类的详解及实例

     java开发中嵌套类的详解 在java语言规范里面,嵌套类(Nested Classes)定义是: A nested class is any class whose declaration occurs within the body of another class or interface. A top level class is a class that is not a nested class. 说的简单一点,就是定义在类里面的类.一般把定义内部类的外围类成为包装类(enclos

  • Java中IO流 RandomAccessFile类实例详解

    Java中IO流 RandomAccessFile类实例详解 RandomAccessFile java提供的对文件内容的访问,既可以读文件,也可以写文件. 支持随机访问文件,可以访问文件的任意位置. java文件模型,在硬盘上的文件是byte byte byte存储的,是数据的集合 打开文件,有两种模式,"rw"读写."r"只读:RandomAccessFile raf = new RandomAccessFile(file, "rw");,文

  • java日期相关类实例详解

    一.Date类 类 Date 表示特定的瞬间,精确到毫秒.用距离1970年1月1日00:00:00的毫秒数(long)类型来表示一个特定的时间点,该值可正可负. Date类中很多方法已经过时,使用Calendar来替代. 常用方法有 long getTime() void setTime(long time) public class T01Date { public static void main(String[] args) { //getTime():返回的时间是距离1970年的毫秒数.

  • java 中 String format 和Math类实例详解

    java 中 String format 和Math类实例详解 java字符串格式化输出 @Test public void test() { // TODO Auto-generated method stub //可用printf(); System.out.println(String.format("I am %s", "jj")); //%s字符串 System.out.println(String.format("首字母是 %c",

  • Java Exception 捕获和显示实例详解

    Java Exception 捕获和显示实例详解 在进行Java B/S架构开发时,经常有这样的场景:后端处理业务逻辑,前端负责展示,当后端处理出现异常时,如何把错误信息展示给前台呢?错误信息栈通常很多,对开发人员查找问题比较方便,但对于客户来说,打一堆的错误信息,无疑是对他们感官的一种摧残,如何捕捉最重要的信息显示到客户端呢?该信息要求简明扼要,指向出错点,且应指明异常的类型. 在很多情况下Exception的 getMessage()方法返回空的值,如果使用该方式则会在前端显示空值.我们要显

  • Java 文件上传的实例详解

    Java 文件上传的实例详解 java 文件上传 Java文件上传,介绍几种常用的方法,也是经过本人亲手调试过的 1.jspsmartupload 这个组件用起来是挺方便的,不过就是只适合小文件上传,如果大文件上传的话就不行,查看了一下他的代码,m_totalBytes = m_request.getContentLength(); m_binArray = new byte[m_totalBytes];居然把整个上传文件都读到内存去了,那如果是上传几十M的文件,同时几个用户上传,服务器稳挂,不

  • java操作mongoDB查询的实例详解

    java操作mongo查询的实例详解 前言: MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案. MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的.他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型.Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且

  • python里使用正则表达式的组嵌套实例详解

    python里使用正则表达式的组嵌套实例详解 由于组本身是一个完整的正则表达式,所以可以将组嵌套在其他组中,以构建更复杂的表达式.下面的例子,就是进行组嵌套的例子: #python 3.6 #蔡军生 #http://blog.csdn.net/caimouse/article/details/51749579 # import re def test_patterns(text, patterns): """Given source text and a list of pa

随机推荐