Java 中文字符按Unicode排序的实现方法

遇到了一个对包含中文的字符串进行排序的问题。要求按unicode编码对字符串进行排序。

测试字符串数组如下:

    String[] arr = {
        "1-测试",
        "1-编辑",
        "1-营销",
        "1结束",
        "2-测试",
        "1-qt"
    };

按unicode排序的期望结果应该是这样的:

1-编辑, 1-测试, 1-营销, 1-qt, 1结束, 2-测试

先按java.lang.String类提供的默认比较方案进行实现,大致如下:

import java.util.Arrays;
import java.util.Comparator;
public class MyJob {
  public static void main(String[] args) {
    String[] arr = {
        "1-测试",
        "1-编辑",
        "1-营销",
        "1结束",
        "2-测试",
        "1-qt"
    };
    Comparator<String> c = String::compareTo;
    Arrays.sort(arr, c);
    System.out.println(Arrays.toString(arr));
  }
}

结果如下:

[1-qt, 1-测试, 1-编辑, 1-营销, 1结束, 2-测试]

可以看到中文字符不能按照拼音进行排序。这时最直接的思路就是将中文字符转为拼音后再进行排序。但是要注意下,在这里面有个字符串不包含中文字符,这就容易导致顺序混乱。

如下面这几个字符串按拼音进行排序顺序如下:

1-编辑,1-测试,1-qt,1-营销

可以看到字符串“1-qt”的位置出错了。 但是按拼音来说它的位置又是对的。这不能不说是一个让人有些头疼的地方。

不过不用担心,java提供了java.text.Collator类来支持规范化的字符串比较。

使用Collator来改造之前的代码:

import java.text.Collator;
import java.util.Arrays;
import java.util.Comparator;
import java.util.Locale;
public class MyJob {
  public static void main(String[] args) {
    String[] arr = {
        "1-测试",
        "1-编辑",
        "1-营销",
        "1结束",
        "2-测试",
        "1-qt"
    };
    Comparator<String> c = (o1, o2) -> Collator.getInstance(Locale.CHINESE).compare(o1, o2);
    Arrays.sort(arr, c);
    System.out.println(Arrays.toString(arr));
  }
}

改造后的程序执行排序的结果如下:

[1-qt, 1-编辑, 1-测试, 1结束, 1-营销, 2-测试]

结果看着好像还OK。但是停停、注意下、字符串“1结束”的位置好像比较奇妙,理想情况下它应该在“1-营销”的后面。

这里出问题的原因我没有弄清楚。猜测着应该是java在Chinese语法中将中划线处理为空字符了。不过最根本的问题还是java对Unicode Collation Algorithm(UCA,Unicode整理算法)的支持并不好。

此时可以考虑使用IBM ICU提供的Collator来替换jdk默认的Collator。代码如下:

import com.ibm.icu.text.Collator;
import java.util.Arrays;
import java.util.Comparator;
import java.util.Locale;
public class MyJob {
  public static void main(String[] args) {
    String[] arr = {
        "1-测试",
        "1-编辑",
        "1-营销",
        "1结束",
        "2-测试",
        "1-qt"
    };
    Comparator<String> c = (o1, o2) -> Collator.getInstance(Locale.CHINESE).compare(o1, o2);
    Arrays.sort(arr, c);
    System.out.println(Arrays.toString(arr));
  }
}

相关的依赖为:

   <dependency>
      <groupId>com.ibm.icu</groupId>
      <artifactId>icu4j-localespi</artifactId>
      <version>60.2</version>
    </dependency>

执行结果为:

[1-编辑, 1-测试, 1-营销, 1-qt, 1结束, 2-测试]

可以看到是和预期一致的。

总结

(0)

相关推荐

  • java unicode转码为中文实例

    复制代码 代码如下: package com.infomorrow.parser_report; import org.junit.Test; public class Decode {    @Test    public void test(){        String uString = "\\u9053\\u8def";        System.out.println(ascii2native(uString));//道路    } public static Stri

  • Java实现中文字符串与unicode互转工具类

    本文实例为大家分享了Java实现中文字符串与unicode互转的具体代码,供大家参考,具体内容如下 原理利用了java实现js的escape以及unescape函数. /** * 中文字符串和unicode互转工具类 <br> * * @author hkb <br> */ public class UnicodeConvertUtils { /** * 实现js的escape函数 * * @param input * 待传入字符串 * @return */ public stat

  • Java String字符串和Unicode字符相互转换代码

    java环境安装后jdk的bin目录有个native2ascii.exe可以实现类似的功能,但是通过java代码也可以实现同样的功能. 字符串转换unicode java方法代码片段: 复制代码 代码如下: /**  * 字符串转换unicode  */ public static String string2Unicode(String string) {       StringBuffer unicode = new StringBuffer();       for (int i = 0

  • java中unicode和中文相互转换的简单实现

    如下所示: package test.com.gjob.services; import java.util.Properties; public class Test { public static void main(String[] args) { String s = "简介"; String tt = gbEncoding(s); // String tt1 = "你好,我想给你说一个事情"; System.out.println(decodeUnicod

  • Java 中文字符按Unicode排序的实现方法

    遇到了一个对包含中文的字符串进行排序的问题.要求按unicode编码对字符串进行排序. 测试字符串数组如下: String[] arr = { "1-测试", "1-编辑", "1-营销", "1结束", "2-测试", "1-qt" }; 按unicode排序的期望结果应该是这样的: 1-编辑, 1-测试, 1-营销, 1-qt, 1结束, 2-测试 先按java.lang.Strin

  • PHP实现通过中文字符比率来判断垃圾评论的方法

    本文实例讲述了PHP实现通过中文字符比率来判断垃圾评论的方法.分享给大家供大家参考.具体实现方法如下: 一.需求: 最近一段时间常常出现这类垃圾评论:一大段英文字符里夹杂一两个生僻汉字,包含了中文字符,而且又没包含啥中文的敏感词,所以就堂而皇之的通过了评论过滤.对这类评论的处理可以采取判断中文字符的比率来确认,但是也会存在一定的误判. 二.解决方案: 要用到php的两个函数strlen和mb_strlen,strlen会把单个汉字长度认定为3,mb_strlen单个汉字长度为1.同一段字符通过两

  • Java Collections.sort()实现List排序的默认方法和自定义方法

    1.java提供的默认list排序方法 主要代码: List<String> list = new ArrayList();list.add("刘媛媛"); list.add("王硕"); list.add("李明"); list.add("刘迪"); list.add("刘布"); //升序 Collections.sort(list,Collator.getInstance(java.uti

  • java中文传值乱码问题的解决方法

    本文实例为大家分享了java中文传值乱码问题,以及解决方法,供大家参考,具体内容如下 一般编码格式设置: 1.可以经过两次编码处理,即设置字符集后,在插入前解码字符集,也是最有效的方式 设置字符集: String value=null; try { value= URLEncoder.encode(jsonObjectPar.getString("value"), "UTF-8"); } catch (UnsupportedEncodingException e)

  • java正则匹配HTML中a标签里的中文字符示例

    本文实例讲述了java正则匹配HTML中a标签里的中文字符.分享给大家供大家参考,具体如下: 今天群里一位朋友问到了一个正则表达式的问题,有如下内容: <a href='www.baidu.comds=id32434#comment'rewr>特432</a> 453543 <a guhll,,l>a1特123你好123吗?</a> <a href=id=32434#comment'ewrer>特2</a> <a>标签中的

  • Java 判断字符为中文实例代码(超管用)

    在做项目中经常会遇到有项目需求是需要判断字符为中文的一些问题,所以搜集了判断中文字符的代码片段,特此分享供大家参考. 直接贴出代码了,里面有详细的注释. package com.coder4j.main; import java.util.regex.Pattern; /** * Java 判断中文字符 * * @author Chinaxiang * @date 2015-08-11 * */ public class CheckChinese { public static void mai

  • Java String字符串和Unicode字符相互转换代码详解

    网上大部分有关"Java String字符串和Unicode字符相互转换代码"的博文几乎都仅是将全为Unicode字符的字符串进行转换,而我们日常很可能需要的是将混有普通字符的Unicode一并转换(例如"\u0061\u0062\u0063(123)",我们希望转换成"abc(123)",而实际上网上的通用方法并不符合该需求,运行即报错),普通字符跳过而Unicode字符要进行转换,在进行字符串的查找替换截取什么的使用正则表达式往往是个很好的选

  • java使用URLDecoder和URLEncoder对中文字符进行编码和解码

    摘要: URLDecoder 和 URLEncoder 用于完成普通字符串 和 application/x-www-form-urlencoded MIME 字符串之间的相互转换.在本文中,我们以使用URLDecoder解决GET请求中文乱码问题为场景说明 URLDecoder/URLEncoder 的用法,并给出了 application/x-www-form-urlencoded MIME 字符串的编码规则. 一. URLDecoder/URLEncoder 使用场景概述 URLDecode

  • Java中字符编码格式详解

    一.前言 在分析Comparable和Comparator的时候,分析到了String类的compareTo方法,String底层是用char[]数组来存放元素,在比较的时候是比较的两个字符串的字符,字符用char来存储,此时,突然想到,Java里面的char可以存放中文吗?后来发现是可以的,并且由此也引出了Java中字符的编码格式问题. 二.Java存储格式 在Java中,如下代码获取了字符'张'的各种编码格式. import java.io.UnsupportedEncodingExcept

随机推荐