Java字符串split方法的坑及解决

目录
  • Java字符串split方法的坑
  • Java字符串split方法的探究
  • 总结

Java字符串split方法的坑

先来看几行简单的Java代码,如下:

System.out.println("1,2".split(",").length);
System.out.println("1,2,".split(",").length);
System.out.println("".split(",").length);
System.out.println(",".split(",").length);

接下来,猜一下各行的输出结果。OK,下面给出真正的运行结果:

2
2
1
0

这里先给出jdk相关源码,再来对应分析各自的输出:

public String[] split(String regex, int limit) {
    /* fastpath if the regex is a
     (1)one-char String and this character is not one of the
        RegEx's meta characters ".$|()[{^?*+\\", or
     (2)two-char String and the first char is the backslash and
        the second is not the ascii digit or ascii letter.
     */
    char ch = 0;
    if (((regex.value.length == 1 &&
         ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
         (regex.length() == 2 &&
          regex.charAt(0) == '\\' &&
          (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
          ((ch-'a')|('z'-ch)) < 0 &&
          ((ch-'A')|('Z'-ch)) < 0)) &&
        (ch < Character.MIN_HIGH_SURROGATE ||
         ch > Character.MAX_LOW_SURROGATE))
    {
        int off = 0;
        int next = 0;
        boolean limited = limit > 0;
        ArrayList<String> list = new ArrayList<>();
        while ((next = indexOf(ch, off)) != -1) {
            if (!limited || list.size() < limit - 1) {
                list.add(substring(off, next));
                off = next + 1;
            } else {    // last one
                //assert (list.size() == limit - 1);
                list.add(substring(off, value.length));
                off = value.length;
                break;
            }
        }
        // If no match was found, return this
        if (off == 0)
            return new String[]{this};
 
        // Add remaining segment
        if (!limited || list.size() < limit)
            list.add(substring(off, value.length));
 
        // Construct result
        int resultSize = list.size();
        if (limit == 0) {
            while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                resultSize--;
            }
        }
        String[] result = new String[resultSize];
        return list.subList(0, resultSize).toArray(result);
    }
    return Pattern.compile(regex).split(this, limit);
}

1.第一行代码的输出结果肯定没什么问题,字符串 "1,2" 以 "," 分隔,结果很直观的是 ["1", "2"],length=2。

2.第二行代码的输出结果,可能大家有人认为是length=3才对,因为字符串 "1,2," 以 "," 分隔,结果应该是 ["1", "2", ""],length=3;其实不然,jdk在split处理的时候,确实会先生成一个集合list = ["1", "2", ""],但之后却会循环判断末位元素是否为空字符串(即末位元素length=0),因此集合最终会变成 ["1", "2"],length=2。具体判断如下:

while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
    resultSize--;
}

3.第三行代码的输出结果,数组 [""],length=1。与其他三种情况不同,空字符串 "" 中不包含regex字符串 ",",所以代表没有匹配上的子串(off=0),则返回字符串本身。具体处理如下:

// If no match was found, return this
if (off == 0)
    return new String[]{this};

4.第四行代码的输出结果,可能也有部分人认为结果应是length=2,因为字符串 "," 以 "," 分隔,结果应该是 ["", ""],length=2;其实亦不然,与第2行同样的原理,最终将list=["", ""] 处理为空集合 [],length=0。

以上,系本文分享的split的一个小坑;除此之外,另一个需要注意的地方,split方法的参数是正则表达式而非一般字符串,所以在处理正则转义字符和特殊字符时留意即可。

Java字符串split方法的探究

今天在使用split分割字符串时突然想到一种情况,如下:

String str="aaaaaaaab";
String arr[]=str.split("aa");

问,arr数组的长度是多少?

那如果str为”baaaaaaaa”呢

String str="baaaaaaaa";

如果str=”aaaaaaaab”呢

String str="aaaaaaaab";

如果str=”baaaaaaaab”呢

String str="baaaaaaaab";

好,我们先在程序中验证一下:

public class Test {

	public static void main(String[] args) {
		String str="aaaaaaaa";
		String [] arr=str.split("aa");
		System.out.println("字符串aaaaaaaa分割的数组长度为:"+arr.length);

		str="baaaaaaaa";
		arr=str.split("aa");
		System.out.println("字符串baaaaaaaa分割的数组长度为:"+arr.length);

		str="aaaaaaaab";
		arr=str.split("aa");
		System.out.println("字符串aaaaaaaab分割的数组长度为:"+arr.length);

		str="baaaaaaaab";
		arr=str.split("aa");
		System.out.println("字符串baaaaaaaab分割的数组长度为:"+arr.length);

	}
}

运行以上代码输出结果

看到结果的你是不是有点小小的惊讶,如果有的话那就继续往下看。

通过split方法查看源码可知又调用了split(regex, 0)方法并且传入一个0:

  public String[] split(String regex) {
        return split(regex, 0);
    }

继续查看源码

 public String[] split(String regex, int limit) {
        /* fastpath if the regex is a
         (1)one-char String and this character is not one of the
            RegEx's meta characters ".$|()[{^?*+\\", or
         (2)two-char String and the first char is the backslash and
            the second is not the ascii digit or ascii letter.
         */
        char ch = 0;
        if (((regex.value.length == 1 &&
             ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
             (regex.length() == 2 &&
              regex.charAt(0) == '\\' &&
              (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
              ((ch-'a')|('z'-ch)) < 0 &&
              ((ch-'A')|('Z'-ch)) < 0)) &&
            (ch < Character.MIN_HIGH_SURROGATE ||
             ch > Character.MAX_LOW_SURROGATE))
        {
            int off = 0;
            int next = 0;
            boolean limited = limit > 0;
            ArrayList<String> list = new ArrayList<>();
            while ((next = indexOf(ch, off)) != -1) {
                if (!limited || list.size() < limit - 1) {
                    list.add(substring(off, next));
                    off = next + 1;
                } else {    // last one
                    //assert (list.size() == limit - 1);
                    list.add(substring(off, value.length));
                    off = value.length;
                    break;
                }
            }
            // If no match was found, return this
            if (off == 0)
                return new String[]{this};

            // Add remaining segment
            if (!limited || list.size() < limit)
                list.add(substring(off, value.length));

            // Construct result
            int resultSize = list.size();
            if (limit == 0) {
                while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                    resultSize--;
                }
            }
            String[] result = new String[resultSize];
            return list.subList(0, resultSize).toArray(result);
        }
        return Pattern.compile(regex).split(this, limit);
    }

有其中关系可知最终会执行 Pattern.compile(regex).split(this, limit)这一段代码,基础往下扒代码:

  public String[] split(CharSequence input, int limit) {
        int index = 0;
        boolean matchLimited = limit > 0;
        ArrayList<String> matchList = new ArrayList<>();
        Matcher m = matcher(input);

        // Add segments before each match found
        while(m.find()) {
            if (!matchLimited || matchList.size() < limit - 1) {
                if (index == 0 && index == m.start() && m.start() == m.end()) {
                    // no empty leading substring included for zero-width match
                    // at the beginning of the input char sequence.
                    continue;
                }
                String match = input.subSequence(index, m.start()).toString();
                matchList.add(match);
                index = m.end();
            } else if (matchList.size() == limit - 1) { // last one
                String match = input.subSequence(index,
                                                 input.length()).toString();
                matchList.add(match);
                index = m.end();
            }
        }

        // If no match was found, return this
        if (index == 0)
            return new String[] {input.toString()};

        // Add remaining segment
        if (!matchLimited || matchList.size() < limit)
            matchList.add(input.subSequence(index, input.length()).toString());

        // Construct result
        int resultSize = matchList.size();
        if (limit == 0)
            while (resultSize > 0 && matchList.get(resultSize-1).equals(""))
                resultSize--;
        String[] result = new String[resultSize];
        return matchList.subList(0, resultSize).toArray(result);
    }

通过代码我们可以发现最终matchList集合中会有值,不过都是空值,然后在

  while (resultSize > 0 && matchList.get(resultSize-1).equals(""))
                resultSize--;

这一段代码中,首先判断最后一个是不是空,如果没有值的话就减一位,依次类推,所以看到这大家对以上程序出现的结果是不是就不奇怪了。

所以我们可以大胆的总结一下,使用split方法分割字符串,如果最后几位是空的话,会将空的位置去掉。

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。

(0)

相关推荐

  • java正则匹配读取txt文件提取特定开头和结尾的字符串

    目录 前言 一.使用FileInputStream处理 二.使用正则开始匹配 1.匹配规则书写 2.pattern 代码案例 总结 前言 前天刚入职的算法同事,过来问我怎么提取txt文件中的数据,我一看这还不简单,结果…搞了好久. 正则不用真的会忘记,写篇博客增加一下记忆吧. 需求:提取txt文件中,有特定开头(双引号) ,特定结尾(双引号) 的中间的数据,打印出来 一.使用FileInputStream处理 FileInputStream:是java中的字节输入流,就是通过字节的形式进行读取

  • Java计算字符串公式的方式解读

    目录 如何计算字符串公式 解决方案一 解决方案二 总结 如何计算字符串公式 解决方案一 使用 commons-jexl3 jar 包 可以使用 commons-jexl3 jar包,此 jar 包提供了一些方法用于计算字符串中的公式. maven 依赖如下: <dependency>     <groupId>org.apache.commons</groupId>     <artifactId>commons-jexl3</artifactId&g

  • Java 常量池详解之字符串常量池实现代码

    目录 1.字符串常量池(String Constant Pool) 1.1:字符串常量池在Java内存区域的哪个位置? 1.2:字符串常量池是什么? 1.3 字符串常量池生成的时机? 如何将String对象放入到常量池 String 对象代码案例解析 new string(“abc”)创建了几个对象 解析public native String intern() 方法 Integer 对象代码案例解析 为啥Integer i1 =10 跟Integer.valueOf(10) 是相等的? 为啥I

  • JAVA中的字符串常量池使用操作代码

    目录 前言 理解字符串常量池 字符串拼接方式 妙用String.intern() 方法 字符串常量池有多大? 字符串常量池的优缺点 字符串池的优点 字符串池的缺点 总结 前言 研究表明,Java堆中对象占据最大比重的就是字符串对象,所以弄清楚字符串知识很重要,本文主要重点聊聊字符串常量池.Java中的字符串常量池是Java堆中的一块特殊存储区域,用于存储字符串.它的实现是为了提高字符串操作的性能并节省内存.它也被称为String Intern Pool或String Constant Pool.

  • Java字符串split方法的坑及解决

    目录 Java字符串split方法的坑 Java字符串split方法的探究 总结 Java字符串split方法的坑 先来看几行简单的Java代码,如下: System.out.println("1,2".split(",").length); System.out.println("1,2,".split(",").length); System.out.println("".split(",&q

  • Java的split方法使用详解

    相信大家都经常使用String 的split方法,但是大家有没有遇到下面的这种情况: 大家想想下面的代码执行结果是什么 public static void main(String[] args) { // TODO Auto-generated method stub String str1 = "a,b,c,,,a"; String str2 = "a,b,c,,,"; String str3 = "a,b,c, , ,"; String[]

  • 记VUE3+TS获取组件类型的方法踩坑及解决

    目录 VUE3+TS获取组件类型的方法踩坑 遇到的坑 问题原因 解决办法 VUE3+TS获取组件ref实例 如何获取组件的类型呢? 总结 VUE3+TS获取组件类型的方法踩坑 获取组件类型的方法 const AccountRef = ref<InstanceType<typeof LoginAccount>>() 遇到的坑 typeof LoginAccount一直报红线提示错误 LoginAction: () => vo...' provides no match for

  • Java字符串比较方法equals的空指针异常的解决

    在Java语言中字符串比较有两种方式:== 和equals(). "=="比较的是针对两个String类型变量的引用,当两个String类型的变量指向同一个String对象(即同一个内存堆),则返回true.而equals()方法是对String对象封装的字符串内容进行比较,相同返回true. 在用equals方法与其他值做比较的时候,有可能会导致抛出空指针异常.写一个小程序来举例说明: public class StringEqual { public static void equ

  • Java字符串split使用方法代码实例

    拆分字符串: 这个可以使用两次分割,第一次使用 | 分割,放到arr数组里,然后使用循环对arr[i]进行使用:分割 public static void main(String[] args) { String str = "张三:20|李四:40|王五:40"; String[] arr = str.split("\\|"); for (int i = 0; i < arr.length; i++) { System.out.println(arr[i])

  • java 枚举类定义静态valueOf(java.lang.String)方法的问题及解决

    目录 问题的起因 猜测.分析 最终解决方案 枚举类Enum方法简介(valueof,value,ordinal) 我们应该注意到enum类型有如下的一些特征 了解了这些基本特性,我们来看看如何使用它们 问题的起因 起因来自于我对于java枚举类的无知. 我本来想定义这样一个枚举类: public enum MenuOptions { CHAT_ROOM("#1"), MENU("#0"), ERROR("#9999"); private Stri

  • java的split方法使用示例

    复制代码 代码如下: package com.lihua.test; public class Test { /**  * @param args  */ public static void main(String[] args) { String str = "abcdefghij";  String array[] = str.split("");  for (int i = 1; i < array.length; i++) {   System.ou

  • js中split()方法得到的数组长度问题

    定义和用法 split() 方法用于把一个字符串分割成字符串数组. 语法 stringObject.split(separator,howmany) 参数 描述 separator 必需.字符串或正则表达式,从该参数指定的地方分割 stringObject. howmany 可选.该参数可指定返回的数组的最大长度.如果设置了该参数,返回的子串不会多于这个参数指定的数组.如果没有设置该参数,整个字符串都会被分割,不考虑它的长度. 返回值 一个字符串数组.该数组是通过在 separator 指定的边

  • Java实现字符串的分割(基于String.split()方法)

    目录 前言 一.JDK-1.8-API文档说明(推荐阅读) 二.简单的使用 1.单个字符分隔 2.正则表达式 三.Java源码分析 1.源代码的测试代码 2.源代码运行原理图示 3.解读完代码后的总结(推荐阅读) 四.limit参数使用区别 1.limit=0 2.limit<0 3.limit>0 五.易错点(推荐阅读) 1.分割到第一个字符 2.转义字符\ 3.正则表达式修饰符不可用 总结 前言 本章对Java如何实现字符串的分割,是基于jDK1.8版本中的String.split()方法

  • java 中用split分割字符串,最后的空格等不被拆分的方法

    在使用java中的split按照"\t",拆分字符串的时候,发现如果最后的几个字段是空,只是用\t分割,是连着的\t的话,就不会被分割,如 "d\tc\te\t\t\t"最后的几个\t就不会被分割,应该是在拆分之前对字符串进行了处理. 导致的拆分字段个数错误.查了一下APi,需要在split中添加参数-1,String[] values = line.split("\t",-1); imit 参数控制应用模式的次数,从而影响结果数组的长度 如果限

随机推荐