Java判断中英文符号、标点的实现

本文介绍了Java判断中英文符号、标点的实现,分享给大家,具体如下:

方法一、用unicodeBlock和unicodeScript判断

在Java中,主要使用 Character类处理字符有关功能,而JDK 1.7中Character是按照Unicode 6.0版本实现的,所以这个要先学习下常用的 Unicode编码。

其中的UnicodeBlock 和 UnicodeScript类可以帮助我们判断字符类型,UnicodeBlock是Unicode标准协会组织unicode码的一个基本单位,实际上一个 UnicodeBlock代表一片连续的Unicode号码段,UnicodeBlock之间不重叠。例如,通常我们利用Unicode编码是否在 0x4E00–0x9FCC 来判断某字符是否为汉字,就是因为,有个UnicodeBlock 专门划分为存储汉字 (准确的说是 CJK统一汉字),这个UnicodeBlock叫做 CJK Unified Ideographs,总共定义了 74,617 个汉字。

UnicodeBlock 与 UnicodeScript 关系:

所以UnicodeScript 是从语言书写规则层次对Unicode字符的分类,这是用使用角度划分,而UnicodeBlock是从硬的编码角度划分。

1. UnicodeBlock是简单的数值范围 (其中可能有些Block中会有一些尚未分配字符的“空号”)。

2. 在一个UnicodeScript中的字符可能分散在多个UnicodeBlock中;

3. 一个UnicodeBlock中的字符可能会被划进多个UnicodeScript中。

判别中文标点符号。

因为中文的标点符号主要存在于以下5个UnicodeBlock中,

U2000-General Punctuation (百分号,千分号,单引号,双引号等)

U3000-CJK Symbols and Punctuation ( 顿号,句号,书名号,〸,〹,〺 等;PS: 后面三个字符你知道什么意思吗? : )    )

UFF00-Halfwidth and Fullwidth Forms ( 大于,小于,等于,括号,感叹号,加,减,冒号,分号等等)

UFE30-CJK Compatibility Forms  (主要是给竖写方式使用的括号,以及间断线﹉,波浪线﹌等)

UFE10-Vertical Forms (主要是一些竖着写的标点符号,    等等)

// 根据UnicodeBlock方法判断中文标点符号
  public boolean isChinesePunctuation(char c) {
    Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
    if (ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
        || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
        || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
        || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
        || ub == Character.UnicodeBlock.VERTICAL_FORMS) {
      return true;
    } else {
      return false;
    }
  }

方法二、用字符范围判断

static boolean isSymbol(char ch)
  {
    if(isCnSymbol(ch)) return true;
    if(isEnSymbol(ch))return true;  

    if(0x2010 <= ch && ch <= 0x2017) return true;
    if(0x2020 <= ch && ch <= 0x2027) return true;
    if(0x2B00 <= ch && ch <= 0x2BFF) return true;
    if(0xFF03 <= ch && ch <= 0xFF06) return true;
    if(0xFF08 <= ch && ch <= 0xFF0B) return true;
    if(ch == 0xFF0D || ch == 0xFF0F) return true;
    if(0xFF1C <= ch && ch <= 0xFF1E) return true;
    if(ch == 0xFF20 || ch == 0xFF65) return true;
    if(0xFF3B <= ch && ch <= 0xFF40) return true;
    if(0xFF5B <= ch && ch <= 0xFF60) return true;
    if(ch == 0xFF62 || ch == 0xFF63) return true;
    if(ch == 0x0020 || ch == 0x3000) return true;
    return false;  

  }
  static boolean isCnSymbol(char ch) {
     if (0x3004 <= ch && ch <= 0x301C) return true;
     if (0x3020 <= ch && ch <= 0x303F) return true;
     return false;
  }
  static boolean isEnSymbol(char ch){  

     if (ch == 0x40) return true;
     if (ch == 0x2D || ch == 0x2F) return true;
     if (0x23 <= ch && ch <= 0x26) return true;
     if (0x28 <= ch && ch <= 0x2B) return true;
     if (0x3C <= ch && ch <= 0x3E) return true;
     if (0x5B <= ch && ch <= 0x60) return true;
     if (0x7B <= ch && ch <= 0x7E) return true;  

     return false;
    }  

  static boolean isPunctuation(char ch){
     if(isCjkPunc(ch)) return true;
     if(isEnPunc(ch)) return true;  

     if(0x2018 <= ch && ch <= 0x201F) return true;
     if(ch == 0xFF01 || ch == 0xFF02) return true;
     if(ch == 0xFF07 || ch == 0xFF0C) return true;
     if(ch == 0xFF1A || ch == 0xFF1B) return true;
     if(ch == 0xFF1F || ch == 0xFF61) return true;
     if(ch == 0xFF0E) return true;
     if(ch == 0xFF65) return true;   

     return false;
    }
  static boolean isEnPunc(char ch){
    if (0x21 <= ch && ch <= 0x22) return true;
   if (ch == 0x27 || ch == 0x2C) return true;
   if (ch == 0x2E || ch == 0x3A) return true;
   if (ch == 0x3B || ch == 0x3F) return true;  

   return false;
  }
  static boolean isCjkPunc(char ch){
     if (0x3001 <= ch && ch <= 0x3003) return true;
     if (0x301D <= ch && ch <= 0x301F) return true;  

     return false;
    }

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • java中判断字段真实长度的实例(中文2个字符,英文1个字符)

    实例如下: public class Char_cn { public static void main(String[] args) { // TODO Auto-generated method stub String haha = "我叫兜兜abcd"; int true_num = String_length(haha); System.out.println("true" + true_num); int false_num = haha.length()

  • Java中判断字符串是中文或者英文的工具类分享

    直接上代码: 复制代码 代码如下: import java.util.regex.Matcher; import java.util.regex.Pattern; /**  *  * <p>  * ClassName ShowChineseInUnicodeBlock  * </p>  * <p>  * Description 提供判断字符串是中文或者是英文的一种思路  * </p>  *  * @author wangxu wangx89@126.com

  • Java判断中英文符号、标点的实现

    本文介绍了Java判断中英文符号.标点的实现,分享给大家,具体如下: 方法一.用unicodeBlock和unicodeScript判断 在Java中,主要使用 Character类处理字符有关功能,而JDK 1.7中Character是按照Unicode 6.0版本实现的,所以这个要先学习下常用的 Unicode编码. 其中的UnicodeBlock 和 UnicodeScript类可以帮助我们判断字符类型,UnicodeBlock是Unicode标准协会组织unicode码的一个基本单位,实

  • Java 判断字符为中文实例代码(超管用)

    在做项目中经常会遇到有项目需求是需要判断字符为中文的一些问题,所以搜集了判断中文字符的代码片段,特此分享供大家参考. 直接贴出代码了,里面有详细的注释. package com.coder4j.main; import java.util.regex.Pattern; /** * Java 判断中文字符 * * @author Chinaxiang * @date 2015-08-11 * */ public class CheckChinese { public static void mai

  • java判断中文字符串长度的简单实例

    话不多说,上代码: /** * 获取字符串的长度,如果有中文,则每个中文字符计为2位 * @param value 指定的字符串 * @return 字符串的长度 */ public static int length(String value) { int valueLength = 0; String chinese = "[\u0391-\uFFE5]"; /* 获取字段值的长度,如果含中文字符,则每个中文字符长度为2,否则为1 */ for (int i = 0; i <

  • Java 判断字符串中是否包含中文的实例详解

    Java 判断字符串中是否包含中文的实例详解 Java判断一个字符串是否有中文是利用Unicode编码来判断,因为中文的编码区间为:0x4e00--0x9fbb, 不过通用区间来判断中文也不非常精确,因为有些中文的标点符号利用区间判断会得到错误的结果.而且利用区间判断中文效率也并不高,例如:str.substring(i, i + 1).matches("[\\一-\\?]+"),就需要遍历整个字符串,如果字符串太长效率非常低,而且判断标点还会错误.这里提高 一个高效准确的判断方法,使

  • java判断ftp目录是否存在的方法

    本文为大家分享了java判断ftp目录是否存在的方法,供大家参考,具体内容如下 package com.soft4j.log4j; import java.io.IOException; import sun.net.ftp.FtpClient; public class FtpTest { static String middle_ftpServer = "10.103.2.250"; static String middle_user = "ora9iftp";

  • Java判断IP地址为内网IP还是公网IP的方法

    本文实例讲述了Java判断IP地址为内网IP还是公网IP的方法.分享给大家供大家参考.具体分析如下: tcp/ip协议中,专门保留了三个IP地址区域作为私有地址,其地址范围如下: 10.0.0.0/8:10.0.0.0-10.255.255.255 172.16.0.0/12:172.16.0.0-172.31.255.255 192.168.0.0/16:192.168.0.0-192.168.255.255 那么,直接上代码吧: 复制代码 代码如下: public static boolea

  • java判断字符串中是否包含中文并过滤中文

    java判断字符串中是否包含中文并过滤掉中文,具体内容如下 1.判断字符串中是否包含中文方法封装 /** * 判断字符串中是否包含中文 * @param str * 待校验字符串 * @return 是否为中文 * @warn 不能校验是否为中文标点符号 */ public static boolean isContainChinese(String str) { Pattern p = Pattern.compile("[\u4e00-\u9fa5]"); Matcher m = p

  • iOS中如何判断中英文混合的字符长度

    废话不多说,直接给大家贴代码了. 一,代码. - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view. //第一种方法 NSLog(@"--first-%i",[self convertToInt:@"123我爱你"]); //第二种方法 NSLog(@"--second--%ld",[self getToInt:@&

  • java判断字符串是否为数字的方法小结

    本文实例总结了java判断字符串是否为数字的方法.分享给大家供大家参考,具体如下: 方法一:用JAVA自带的函数 public static boolean isNumeric(String str){ for (int i = str.length();--i>=0;){ if (!Character.isDigit(str.charAt(i))){ return false; } } return true; } 方法二:用正则表达式 public static boolean isNume

  • java 判断两个对象是否为同一个对象实例代码

    java 判断两个对象是否为同一个对象 用"=="比较的是引用的地址,用equals比较的就是值.那我们new两个相同的对象什么属性都一样,为什么编译的时候不相同,这是因为我们调用的是父类也就是Object的equals方法,这里我们就需要重写这个equals方法. public class Test5 { public static void main(String[] args) { User mUser1 = new User("zhangsan", &quo

随机推荐