Java正则表达式学习之分组与替换

正则表达式的子表达式(分组)不是很好懂,但却是很强大的文本处理工具。

1 正则表达式热身

匹配电话号码

// 电话号码匹配
// 手机号段只有 13xxx 15xxx 18xxxx 17xxx
System.out.println("18304072984".matches("1[3578]\\d{9}")); // true

// 座机号:010-65784236,0316-3312617,022-12465647,03123312336
String regex = "0\\d{2}-?\\d{8}|0\\d{3}-?\\d{7}";
String telStr = "010-43367458";
System.out.println(telStr.matches(regex)); // true

匹配邮箱

String mail = "i@jiaobuchong.com.cn";
String reg = "[a-zA-Z_0-9]+@[a-zA-Z0-9]+(\\.[a-zA-Z]+){1,2}";
System.out.println(mail.matches(reg)); // true

特殊字符替换

将不是中文的字符替换为空:

String input = "神探狄仁&*%$杰之四大天王@bdfbdbdfdgds23532";
String reg = "[^\\u4e00-\\u9fa5]";
input = input.replaceAll(reg, "");
System.out.println(input); // 神探狄仁杰之四大天王

汉字的Unicode编码范围是:\u4e00-\u9fa5

2 分组

组是用括号划分的正则表达式,可以根据组的编号来引用某个组。组号为 0 表示整个表达式,组号 1 表示第一对括号扩起的组,以此类推。

看 Java API 中 Pattern 中的描述:

Capturing groups are numbered by counting their opening parentheses from left to right. In the expression ((A)(B(C))), for example, there are four such groups:

1. ((A)(B(C)))
2. (A)
3. (B(C))
4. (C)

再比如 A(B(C))D 有三个组:组 0 是 ABCD,组 1 是 BC,组 2 是 C,

可以根据有多少个左括号来来确定有多少个分组,括号里的表达式都称子表达式。

Eg1:

Matcher 对象提供很多方法:

  1. goupCount() 返回该正则表达式模式中的分组数目,对应于「左括号」的数目
  2. group(int i) 返回对应组的匹配字符,没有匹配到则返回 null
  3. start(int group) 返回对应组的匹配字符的起始索引
  4. end(int group) 返回对应组的匹配字符的最后一个字符索引加一的值
// 这个正则表达式有两个组,
// group(0) 是 \\$\\{([^{}]+?)\\}
// group(1) 是 ([^{}]+?)
String regex = "\\$\\{([^{}]+?)\\}";
Pattern pattern = Pattern.compile(regex);
String input = "${name}-babalala-${age}-${address}";

Matcher matcher = pattern.matcher(input);
System.out.println(matcher.groupCount());
// find() 像迭代器那样向前遍历输入字符串
while (matcher.find()) {
 System.out.println(matcher.group(0) + ", pos: "
 + matcher.start() + "-" + (matcher.end() - 1));
 System.out.println(matcher.group(1) + ", pos: " +
 matcher.start(1) + "-" + (matcher.end(1) - 1));
}

输出:

1
${name}, pos: 0-6
name, pos: 2-5
${age}, pos: 17-22
age, pos: 19-21
${address}, pos: 24-33
address, pos: 26-32

group,翻译成中文就是分组。

group()或group(0)对应于整个正则表达式每次匹配到的内容,

group(1)表示括号中(一个子表达式分组)匹配到的内容。

Eg2:

为了更直观的看分组,在 Eg1 的正则表达式上再多加一对括号:

String regex = "(\\$\\{([^{}]+?)\\})";
Pattern pattern = Pattern.compile(regex);
String input = "${name}-babalala-${age}-${address}";

Matcher matcher = pattern.matcher(input);
// matcher.find() 方法会对 input 这个字符串多次进行匹配,如果能匹配到,这个匹配结果里就会包含多个分组,我们可以从分组里提取我们想要的结果
while (matcher.find()) {
 System.out.println(matcher.group(0) + ", pos: " + matcher.start());
 System.out.println(matcher.group(1) + ", pos: " + matcher.start(1));
 System.out.println(matcher.group(2) + ", pos: " + matcher.start(2));
}

输出:

${name}, pos: 0
${name}, pos: 0
name, pos: 2
${age}, pos: 17
${age}, pos: 17
age, pos: 19
${address}, pos: 24
${address}, pos: 24
address, pos: 26

由此可得出一对括号一个分组,可以通过左括号数来确定有多少个分组。

通过group()获取分组中的匹配字串应用场景很广泛,

在笔者的一个项目中,通过使用这个特性实现了很有意思的通配符替换,感动!

Eg3(通过分组提取想要的数据):

 // 这个正则表达式会提取字符串中的「数字」和「字母」
 Pattern pattern = Pattern.compile("([0-9]+).*?([a-zA-Z]+)");
 String input = "那就20200719这样吧sunny。。。。。。。122432该拿什么与眼泪抗衡twinkle";
 Matcher matcher = pattern.matcher(input);
 // 每个匹配到的子串分组的个数
 int group = matcher.groupCount();
 // 如果输入串有多个可被匹配的子串,这里会多次进行匹配
 while (matcher.find()) {
 System.out.println("匹配到的子串:" + matcher.group()); // 匹配到的子串
 for (int i = 1; i <= group; i++) {
 System.out.println("分组" + i + ": " + matcher.group(i));
 }
 }

输出:

匹配到的子串:20200719这样吧sunny
分组1: 20200719
分组2: sunny
匹配到的子串:122432该拿什么与眼泪抗衡twinkle
分组1: 122432
分组2: twinkle

3 分组替换

Eg1:

String tel = "18304072984";
// 括号表示组,被替换的部分$n表示第n组的内容
tel = tel.replaceAll("(\\d{3})\\d{4}(\\d{4})", "$1****$2");
System.out.print(tel); // output: 183****2984

replaceAll 是一个替换字符串的方法,正则表达式中括号表示一个分组,replaceAll 的参数 2 中可以使用 $n(n 为数字)来依次引用子表达式中匹配到的分组字串,"(\\d{3})\\d{4}(\\d{4})", "$1****$2",分为前(前三个数字)中间四个数字(最后四个数字) 替换为(第一组数字保持不变 $1)(中间为 * )(第二组数字保持不变 $2)。

String one = "hello girl hi hot".replaceFirst("(\\w+)\\s+(\\w+)", "$2 $1");
String two = "hello girl hi hot".replaceAll("(\\w+)\\s+(\\w+)", "$2 $1");
System.out.println(one); // girl hello hi hot
System.out.println(two); // girl hello hot hi

理解了Eg1,这个例子也自然就理解了。

Eg3:

来一个实用的例子,重复标点符号替换:

String input = "假如生活欺骗了你,,,相信吧,,,快乐的日子将会来临!!!…………";

// 重复标点符号替换
String duplicateSymbolReg = "([。?!?!,]|\\.\\.\\.|……)+";
input = input.replaceAll(duplicateSymbolReg, "$1");
System.out.println(input);

输出:

假如生活欺骗了你,相信吧,快乐的日子将会来临!……

正则表达式:([。?!?!,]|\\.\\.\\.|……)+,括号中是一个分组:表示一个标点符号,+表示这个分组出现一次或多次,$1分组的内容(一个标点符号)。replaceAll 就使用$1去对字符串进行替换了。

Eg4:

IP地址排序

String ip = "192.68.1.254 102.49.23.013 10.10.10.10 2.2.2.2 8.109.90.30";
ip = ip.replaceAll("(\\d+)", "00$1");
System.out.println(ip);

ip = ip.replaceAll("0*(\\d{3})", "$1");
System.out.println(ip);
String[] strs = ip.split(" ");

Arrays.sort(strs);
for (String str : strs) {
 str = str.replaceAll("0*(\\d+)", "$1");
 System.out.println(str);
}

输出:

00192.0068.001.00254 00102.0049.0023.00013 0010.0010.0010.0010 002.002.002.002 008.00109.0090.0030
192.068.001.254 102.049.023.013 010.010.010.010 002.002.002.002 008.109.090.030
2.2.2.2
8.109.90.30
10.10.10.10
102.49.23.13
192.68.1.254

  1. 让IP地址的每一段都是3位,替换之后有4位的情况
  2. 保证IP地址每一段都是3位
  3. 排序之

写到这里,笔者不禁感叹,真的很强大!

4 反向引用

使用小括号指定一个子表达式分组后,匹配这个子表达式的文本可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:以分组的左括号为标志,从左向右,第一个分组的组号为1,第二个为2,以此类推。

Eg:

/* 这个正则表达式表示 安安静静 这样的叠词 */
String regex = "(.)\\1(.)\\2";
System.out.println("安安静静".matches(regex)); // true
System.out.println("安静安静".matches(regex)); // false

上面 (.) 表示一个分组,里面 . 表示任意字符,每一个字符都是一个分组,
\\1表示组1(安)又出现了一次,\\2表示组2(静)又出现了一次。

那匹配 安静安静,怎么写正则表达式?根据上面的例子,将安静分成一个组,然后这个组又出现了一次就是安静安静:

String regex = "(..)\\1";
System.out.println("安静安静".matches(regex)); // true
System.out.println("安安静静".matches(regex)); // false

5 反向引用替换

Eg1:

String str = "我我...我我...我要..要要...要要...找找找一个....女女女女...朋朋朋朋朋朋...友友友友友..友.友...友...友友!!!";

/*将 . 去掉*/
str = str.replaceAll("\\.+", "");
System.out.println(str);

str = str.replaceAll("(.)\\1+", "$1");
System.out.println(str);

输出:

我我我我我要要要要要找找找一个女女女女朋朋朋朋朋朋友友友友友友友友友友!!!
我要找一个女朋友!

(.)表示任意一个字符都会成为一个分组;\\1+ 引用分组(一个字符),表示出现1次或多次这个分组。 $1引用分组(.)将多个重复字符替换成一个字符。

Eg2:

替换重复出现的两位数之间的内容:

"xx12abdd12345".replaceAll("(\\d{2}).+?\\1", ""); //结果为 xx345

是不是觉得很神奇!

使用replace系列的方法要注意的一个异常: Java replaceAll()方法报错Illegal group reference

参考:

  • Java正则篇-27-正则的替换和分组功能
  • 正则表达式30分钟入门教程
  • 正则基础之——捕获组(capture group)
  • Java正则表达式Pattern与Matcher类
  • Java学习之正则表达式
  • Java进阶——使用正则表达式检索、替换String中的特定字符和关于正则表达式的一切
  • java 去除空格、标点符号

到此这篇关于Java正则表达式学习之分组与替换的文章就介绍到这了,更多相关Java正则表达式分组与替换内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • JAVA正则表达式 Pattern和Matcher

    1.简介: java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包. 它包括两个类:Pattern和Matcher Pattern 一个Pattern是一个正则表达式经编译后的表现模式. Matcher 一个Matcher对象是一个状态机器,它依据Pattern对象做为匹配模式对字符串展开匹配检查. 首先一个Pattern实例订制了一个所用语法与PERL的类似的正则表达式经编译后的模式,然后一个Matcher实例在这个给定的Pattern实例的模式控制下进行字

  • java正则表达式四种常用的处理方式(匹配、分割、替代、获取)

    java 正则表达式高级篇,介绍四种常用的处理方式:匹配.分割.替代.获取,具体内容如下 package test; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * 正则表达式 * 正则表达式 的用法主要是4种方面的使用 * 匹配,分割,替换,获取. * 用一些简单的符号来代表代码的操作 * @author cyc * */ public class Rex { public static void ma

  • Java 正则表达式详解

    如果你不熟悉这个术语,那么"正则表达式"(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式. 正则表达式30分钟入门教程 常用正则表达式 许多语言,包括Perl.PHP.Python.JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表达式实现高级"搜索-替换"功能.那么Java又怎样呢?本文写作时,一个包含了用正则表达式进行文本处理的Java规范需求(Specification R

  • Java正则表达式提取字符的方法实例

    正好遇到一个需求需要将字符串中特定的字符全部提取出来,这个如果是按常规的字符串处理的话非常的繁琐.于是想到用正则表达式来完成.项目需求是这样的:需要提取车牌号中最后一个数字,比如说:苏A7865提取5,苏A876X提取6 实现方法: import java.util.regex.Matcher; import java.util.regex.Pattern; public class Test { public static void main(String[] args) { String s

  • JAVA中正则表达式匹配,替换,查找,切割的方法

    正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组 常见的截取规则: str.split("\\.")按照.来截取 str.split(" ")按照空格截取 str.split("cc+")按照c字符来截取,2个c或以上 str.split((1)\\.+)按照字符串中含有2个字符或以上的地方截取(1)表示分组为1 截取的例子; 按照

  • Java正则表达式过滤出字母、数字和中文

    1.Java中过滤出字母.数字和中文的正则表达式 (1)过滤出字母的正则表达式 [^(A-Za-z)] (2) 过滤出 数字 的正则表达式 [^(0-9)] (3) 过滤出 中文 的正则表达式 [^(\\u4e00-\\u9fa5)] (4) 过滤出字母.数字和中文的正则表达式 [^(a-zA-Z0-9\\u4e00-\\u9fa5)] 2.实例源码 ** * @Title:FilterStr.java * @Package:com.you.dao * @Description:Java中过滤数

  • java中 利用正则表达式提取( )内内容

    昨天遇到一个小问题,需要批量处理一些用户,而前台传来的用户格式如下,要提取括号中间的内容(不带括号) 教师10(0010)教师11(0011)教师9(009)教师12(0012)教师13(0013)教师14(0014) 本来想用java的String.split()和substring()来搞定,但是需要处理多次比较麻烦,就用正则表达式了.虽然语法忘得差不多了,但是印象中用断言比较方便(关键希望结果不带括号).打开RegexBuddy试了下,轻松搞定:下边是java实现代码: 复制代码 代码如下

  • Java正则表达式入门基础篇(新手必看)

    正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配的一个或多个字符串.正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配. 众所周知,在程序开发中,难免会遇到需要匹配.查找.替换.判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力.因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段. 大家都知道,正则表达式是一种可以

  • Java 正则表达式学习总结和一些小例子

    从Java1.4起,Java核心API就引入了java.util.regex程序包,它是一种有价值的基础工具,可以用于很多类型的文本处理, 如匹配,搜索,提取和分析结构化内容. java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包.它包括两个类:Pattern和Matcher. Pattern是一个正则表达式经编译后的表现模式. 在java中,通过适当命名的Pattern类可以容易确定String是否匹配某种模式.模式可以象匹配某个特定的String那样简单

  • java正则表达式验证邮箱、电话号码示例

    下面的代码使用正则表达式验证输入格式包括了验证邮箱和验证手机号码 复制代码 代码如下: package com.firewolf.utils; import java.util.regex.Matcher; import java.util.regex.Pattern; /**  * 使用正则表达式验证输入格式  * @author liuxing  *  */ public class RegexValidateUtil {  public static void main(String[]

随机推荐