Java正则表达式匹配不到结果的解决

2025-01-31 20:03:33

如下所示：

String str = "\uFEFF<?xml version=\"1.0\" encoding=\"utf-8\"?><Response xmlns:xsd=\"http://www.w3.org/2001/XMLSchema\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\"><Header ShouldRecordPerformanceTime=\"false\" Timestamp=\"2018-6-25 21:24:03\" RequestID=\"2c4d0b24-fd48-4a92-a2d8-c66793df2059\" ResultCode=\"Success\" AssemblyVersion=\"2.9.5.0\" RequestBodySize=\"0\" SerializeMode=\"Xml\" RouteStep=\"1\" Environment=\"pro\" /><SSPATResponse><Result>0</Result><FareDetail /><Price>0</Price><ErrCode>102</ErrCode><DetailInfo>Send:APPLOCK\n" +
    "Rev:\n" +
    "可用资源锁定成功, 60 秒内没有输入指令资源将被Buk收回\n" +
    "Send:IG\n" +
    "Rev:\n" +
    "NO PNR\n" +
    "Send:\n" +
    "SS:AA186/N/27JUN18/PEKORD/NN1;\n" +
    "Rev:\n" +
    "AA 186 N 27JUN PEKORD NN1 WL OPEN \n" +
    "UNABLE TO SELL.PLEASE CHECK THE AVAILABILITY WITH \"AV\" AGAIN\n" +
    "Send:IG\n" +
    "Rev:</DetailInfo><PatOfficeno>SHA717</PatOfficeno></SSPATResponse><ResponseStatus><Timestamp xmlns=\"http://soa.ctrip.com/common/types/v1\">2018-06-25T21:24:03.4535624+08:00</Timestamp><Ack xmlns=\"http://soa.ctrip.com/common/types/v1\">Success</Ack></ResponseStatus></Response>";

String regex = "<DetailInfo>((.|\\n")*?)</DetailInfo>";

str为要匹配的字符串（是传入的），regex为正则表达式

目的是匹配出<DetailInfo>标签中的内容

在本地测试时可以匹配出来，但是在线上就不行。

真的是百思不得其解……

后来认真比对了一下线上传入的str和本地复制过来的str，发现了了一个微小的不同

线上传入的str行分隔符是\r\n，而复制粘贴到本地之后都变成了\n

而我的正则表达式中只匹配了\n的情况，因此出现这样的bug

提醒自己要注意系统之间的差别，win上的行分隔符是\n，而Linux是\r\n

为了能适配所有的环境，可以直接用System.lineSeparator()来替代，当然也可以把表达式写成这样(

<DetailInfo>((.|\\n|\\r\\n")*?)</DetailInfo>

补充：Java正则表达式匹配的坑

今天在判断字符串是否存在某个字符串，直接用String.matches(regex)，死活匹配不出来，在线正则工具用了很多都是可以的，后面找到问题，总结一下，防止再次踩坑。

一、前提#

java中判断一段字符串中是否包含某个字符串的方式：

1、#

String.matches(regex);

阅读源码发现，这个方法本质是调用了Pattern.matches(regex, str)，而该方法调Pattern.compile(regex).matcher(input).matches()方法，而Matcher.matches()方法试图将整个区域与模式匹配，如果匹配成功，则可以通过开始、结束和组方法获得更多信息。

即这个方法会在表达式前后加上$（regex$），是对这个字符串全匹配

而不会只匹配其中的子串，如果只想匹配子串，则需要表达式匹配整段

2、#

Pattern.compile(regex).matcher(str).find()

Matcher.find()方法则是仅仅进行匹配字串的方法

如果不想使用全局匹配则可以使用Matcher.find()方法

二、附源码#

1、String.matches(regex)#

String.matches(regex)

public boolean matches(String regex) {
    return Pattern.matches(regex, this);
}
Pattern.matches(regex, this)

public static boolean matches(String regex, CharSequence input) {
  Pattern p = Pattern.compile(regex);
  Matcher m = p.matcher(input);
  return m.matches();
}

2、Matcher.find()#

Pattern.compile

public static Pattern compile(String regex) {
    return new Pattern(regex, 0);
}
Pattern.matcher

public Matcher matcher(CharSequence input) {
    if (!compiled) {
      synchronized(this) {
        if (!compiled)
          compile();
      }
    }
    Matcher m = new Matcher(this, input);
    return m;
}

Matcher.find()

public boolean find() {
    int nextSearchIndex = last;
    if (nextSearchIndex == first)
      nextSearchIndex++;
    // If next search starts before region, start it at region
    if (nextSearchIndex < from)
      nextSearchIndex = from;
    // If next search starts beyond region then it fails
    if (nextSearchIndex > to) {
      for (int i = 0; i < groups.length; i++)
        groups[i] = -1;
      return false;
    }
    return search(nextSearchIndex);
}

三、总结#

各个匹配的优缺点都有，大家可以按需选择

如果仅仅只需要获取字符串中是否包含某个字符串，还是用Matcher.find()比较方便

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

Java正则表达式(匹配、切割、替换、获取)等方法

正则表达式:符合一定规则的表达式作用:用于专门操作字符串特点:用于一些特定的符号来表示一些代码操作,这样就简化书写,主要是学习一些特殊符号的使用好处:可以简化对字符串的复杂操作. 弊端:符号定义越多,正则越长,阅读性越差具体操作: 1.匹配:String matches方法用规则匹配所有的字符串,只要有一个不符合,则匹配结束. 2.切割:String sqlit(); 3.替换:replaceAll(); 4.获取:将字符串中的符合规则的子串取出. 操作步骤: 首先,将正则表大式封装成
Java替换中使用正则表达式实现中间模糊匹配的方法

使用".+?"实现中间模糊匹配的代码: public class Test { public static void main(String[] args) { String str="总会在某一个回眸的时刻醉了流年,濡湿了柔软的心.总会有某一个回眸的时刻醉了流年,濡湿了柔软的心"; str=str.replaceAll("总会在.+?流年", "总会有某一个回眸的时刻醉了流年"); System.out.println(st
java正则表达式匹配所有数字的案例

用于匹配的正则表达式为 :([1-9]\d*\.?\d*)|(0\.\d*[1-9]) ( [1-9] :匹配1~9的数字: \d :匹配数字,包括0~9: * :紧跟在 \d 之后,表明可以匹配零个及多个数字: \. :匹配小数点: ? :紧跟在 \. 之后,表明可以匹配零个或一个小数点: 0 :匹配一个数字0: ) 其中的 [1-9]\d*\.?\d* 用以匹配诸如:1.23.34.0.56.78 之类的非负的整数和浮点数: 其中的 0\.\d*[1-9] 用以匹配诸如:0.1.0.23.0
Java使用正则表达式匹配获取链接地址的方法示例

本文实例讲述了Java使用正则表达式匹配获取链接地址的方法.分享给大家供大家参考,具体如下: 获取页面中字符串的url地址我们都会使用正则表达式来匹配获取了,下面我来给大家总结几个匹配获取链接地址示例. 1.正则表达式中Matcher中find()方法的应用. 2.String对象中的 replaceAll(String regex,String replacement) 方法的使用.通过这个方法去除了不必要的字符串,从而得到了需要的网址和链接文字例1.超简单的 String content
Java正则表达式如何匹配特定html标签内的内容

如题: 使用正则表达式,怎么匹配特定html标签内的内容. 比如,对于如下文本串: ... ignored content prefix content <html>inner content</html> postfix content ... ignored content 我们要提取出<html>标签内的内容: inner content(这里的html标签可以换成任何其它的标签,比如<p>标签) 这里引入正则表达式的group概念:详细点击文章查看
Java正则表达式实现在文本中匹配查找换行符的方法【经典实例】

本文实例讲述了Java正则表达式实现在文本中匹配查找换行符的方法.分享给大家供大家参考,具体如下: 默认情况下,正则表达式 ^ 和 $ 忽略行结束符,仅分别与整个输入序列的开头和结尾匹配.如果激活 MULTILINE 模式,则 ^ 在输入的开头和行结束符之后(输入的结尾)才发生匹配.处于 MULTILINE 模式中时,$ 仅在行结束符之前或输入序列的结尾处匹配. NLMatch.java: package nlMatch; import java.util.regex.Pattern; /**
Java正则表达式匹配不到结果的解决

如下所示: String str = "\uFEFF<?xml version=\"1.0\" encoding=\"utf-8\"?><Response xmlns:xsd=\"http://www.w3.org/2001/XMLSchema\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\"><Header Should
Java正则表达式匹配字符串并提取中间值的方法实例

目录前言场景一:提取SAML2报文解析场景2:提取sql中的表名和字段总结前言有时候正则表达式不只是匹配一下什么数字/邮箱/身份证/日期等等,还需要匹配某一段文字,并按照既定格式提取其中的某些值. 场景一:提取SAML2报文 SAML2报文内容如下,从中提取对应的attribute name和value. <saml:AttributeStatement> <saml:Attribute Name="mail"> <saml:Attribut
JAVA正则表达式匹配多个空格的解决方案

目录需求解决方案扩充知识 ()和[]有本质的区别 java中,正则表达式匹配一个或多个空格 && 正则表达式匹配两个或多个空格正则表达式匹配多个空格需求针对tab键带来的多个空格问题,有时候我们针对带空格的一行数据要进行切割,如果有多个空格就会出现就会切割空格出现,我们想把空格都去掉,所以需要用到某些方法. 解决方案利用正则表达式来匹配空格 \\s+ 首先利用split("\\s+");方法来对字符串切割,尽可能的匹配空格,这里也挺有意思,因为空格数目不一
java正则表达式匹配规则超详细总结

目录 1 单个字符的匹配规则如下: 2 多个字符的匹配规则如下: 3 复杂匹配规则主要有: 4 提取匹配的字符串子段 5 非贪婪匹配 6 替换和搜索 6.1 分割字符串 6.2 搜索字符串 6.3 替换字符串 6.4 反向引用总结 1 单个字符的匹配规则如下: 2 多个字符的匹配规则如下: 3 复杂匹配规则主要有: 4 提取匹配的字符串子段 Pattern p = Pattern.compile("(\\d{3,4})\\-(\\d{7,8})"); Matcher m = p.ma
Java正则表达式匹配电话格式

大家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它用以描述在查找文字主体时待匹配的一个或多个字符串.正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配. /** * 手机号:目前全国有27种手机号段. * 移动有16个号段:134.135.136.137.138.139.147.150.151.152.157.158.159.182.187.188.其中147.157.188是3G号段,其
java正则表达式匹配网页所有网址和链接文字的示例

复制代码代码如下: import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.
Java 正则表达式匹配模式(贪婪型、勉强型、占有型)

Greediness(贪婪型):最大匹配 X?.X*.X+.X{n,} 是最大匹配.例如你要用 "<.+>" 去匹配 "a<tr>aava </tr>abb",也许你所期待的结果是想匹配 "<tr>",但是实际结果却会匹配到 "<tr>aava </tr>. 在 Greediness 的模式下,会尽量大范围的匹配,直到匹配了整个内容,这时发现匹配不能成功时,开始回退
Java/Js下使用正则表达式匹配嵌套Html标签

通用 HTML 标签区配正则最近看网站日志,发现有人在博客上转了我不知道几年前写的一个匹配 HTML 标签的正则,刚好最近也在做一些相关的事情,顿时来了兴趣.就拿回来改改,成了下面这样,可能会有一些 case 遗漏,欢迎修改,已知在内嵌 <script> 复杂内容的处理能力较弱,不过对纯 HTML 来说已经够用,拿来做一些分析工具还是不错滴. 复制代码代码如下: <script type="text/javascript"> var str = "