java string的一些细节剖析

2025-02-26 15:11:07

首先说明这里指的是Java中的String，虽然我已经决定转战C/C++了，但是因为今天碰到一个问题，还是来看一下。String的定义如下：

代码如下:

public final class String
{
private final char value[]; // 保存的字符串
private final int offset; // 开始的位置
private final int count; // 字符数目
private int hash; // 缓存的hash值
......
}

在Debug的时候可以看到保存的值如下：

需要说明一下的是：如果没有调用过hashCode()，那么hash的值为0。容易知道这里的value也就是真正保存的字符串的值（也就是“字符串测试”）的char数组，而每个char的值是多少呢？很容易验证：Unicode。
到这里大家也就猜到我们常用的subString是怎么实现的了：如果是让我们实现的话让new String使用相同的value（char数组），只修改offset和count就可以了。这样的话既省空间又快（不需要拷贝），而事实上也是这样的：

代码如下:

public String substring(int beginIndex) {
return substring(beginIndex, count);
}
public String substring(int beginIndex, int endIndex) {
......
return ((beginIndex == 0) && (endIndex == count)) ? this :
new String(offset + beginIndex, endIndex - beginIndex, value);
}
String(int offset, int count, char value[]) {
this.value = value;
this.offset = offset;
this.count = count;
}

既然是在讨论字符串，JVM默认使用的是什么编码呢？通过调试可以发现：

代码如下:

public static Charset defaultCharset() {
if (defaultCharset == null) {
synchronized (Charset.class) {
java.security.PrivilegedAction pa = new GetPropertyAction("file.encoding");
String csn = (String)AccessController.doPrivileged(pa);
Charset cs = lookup(csn);
if (cs != null)
defaultCharset = cs;
else
defaultCharset = forName("UTF-8");
}
}

其中defaultCharset的值可以通过：
　　-Dfile.encoding=utf-8
进行设置。当然如果你想设置为“abc”也可以，但会默认设置为UTF-8。可以通过System.getProperty("file.encoding")来看具体的值。看defaultCharset是为什么呢？因为网络传输的过程中应该都是byte数组，不同的编码方式得到的byte数组可能是不相同的。所以，我们得知道编码方式是怎么得到的吧？具体得到byte数组的方法也就是我们下面重点要看的getBytes了，它最终要调用的是CharsetEncoder的encode方法，如下：

代码如下:

public final CoderResult encode(CharBuffer in, ByteBuffer out, boolean endOfInput) {
int newState = endOfInput ? ST_END : ST_CODING;
if ((state != ST_RESET) && (state != ST_CODING) && !(endOfInput && (state == ST_END)))
throwIllegalStateException(state, newState);
state = newState;
for (;;) {
CoderResult cr;
try {
cr = encodeLoop(in, out);
} catch (BufferUnderflowException x) {
throw new CoderMalfunctionError(x);
} catch (BufferOverflowException x) {
throw new CoderMalfunctionError(x);
}
if (cr.isOverflow())
return cr;
if (cr.isUnderflow()) {
if (endOfInput && in.hasRemaining()) {
cr = CoderResult.malformedForLength(in.remaining());
} else {
return cr;
}
}
CodingErrorAction action = null;
if (cr.isMalformed())
action = malformedInputAction;
else if (cr.isUnmappable())
action = unmappableCharacterAction;
else
assert false : cr.toString();
if (action == CodingErrorAction.REPORT)
return cr;
if (action == CodingErrorAction.REPLACE) {
if (out.remaining() < replacement.length)
return CoderResult.OVERFLOW;
out.put(replacement);
}
if ((action == CodingErrorAction.IGNORE) || (action == CodingErrorAction.REPLACE)) {
in.position(in.position() + cr.length());
continue;
}
assert false;
}
}

当然首先会根据需要的编码格式选择对应的CharsetEncoder，而最主要的是不同的CharsetEncoder实现了不同的encodeLoop方法。这里可能会不明白为什么这里有个for(;;)？其实看CharsetEncoder所处的包（nio）和它的参数也就大概明白了：这个函数是可以处理流的（虽然我们这里使用的时候不会循环）。
在encodeLoop方法中会将尽可能多的char转换为byte，new String差不多就是上面的逆过程。
在实际的开发过程中经常会遇到乱码问题：
在上传文件的时候取到文件名；
JS传到后端的字符串；
首先先尝试下下面代码的的运行结果：

代码如下:

public static void main(String[] args) throws Exception {
String str = "字符串";
// -41 -42 -73 -5 -76 -82
printArray(str.getBytes());
// -27 -83 -105 -25 -84 -90 -28 -72 -78
printArray(str.getBytes("utf-8"));
// ???
System.out.println(new String(str.getBytes(), "utf-8"));
// 瀛楃涓?
System.out.println(new String(str.getBytes("utf-8"), "gbk"));
// 字符??
System.out.println(new String("瀛楃涓?".getBytes("gbk"), "utf-8"));
// -41 -42 -73 -5 63 63
printArray(new String("瀛楃涓?".getBytes("gbk"), "utf-8").getBytes());
}
public static void printArray(byte[] bs){
for(int i = 0; i < bs.length; i++){
System.out.print(bs[i] + " ");
}
System.out.println();
}

在程序中的注释中说明了输出结果：
因为GBK中2个byte表示一个汉字，所以就有了6个byte；
因为UTF-8中3个byte表示一个汉字，所以就有了9个byte；
因为通过无法通过GBK生成的byte数组再根据UTF-8的规则去生成字符串，所以显示???；
这个是经常遇到乱码的原因，GBK使用UTF-8生成的byte能生成字符串；
虽然上面生成的是乱码，但是电脑并不这么认为，所以还是能通过getBytes得到字节数组，而这个数组中是utf-8是可以识别的；
最后的两个63（?）应该是encode填充的（或者是字节不够直接填充的，这个地方没有细看）；
GBK和UTF-8对于因为字母和数字的编码是相同的，所以在这几种字符的处理上是不会出现乱码的，但是他们对汉字的编码确实不一样的，这就是很多问题的起源，看下面代码：
　　new String(new String("我们".getBytes("UTF-8"), "GBK").getBytes("GBK"), "UTF-8);
显然这段代码的结果是“我们”，但是对我们有什么用？首先我们注意到：
　　new String("我们".getBytes("UTF-8"), "GBK")；
这段代码的结果是乱码，而且很多的乱码都是“乱成这样的”。但是要记住：这里的乱是对我们而言，对电脑来说无所谓“乱”与“不乱”，它在我们几乎放弃的时候还能从乱码中通过“getBytes("GBK")”得到它的“主心骨”，然后我们就可以用“主心骨”还原出原来的字符串。
貌似上面的这段代码能解决“GBK”和“UTF-8”之间的乱码问题，但是这种解决方法也只限于一种特殊情况：所有连续汉字的个数都是偶数个！原因在上面已经说过了，这里就不赘述了。
那么怎么解决这个问题呢？
第一种解决方法：encodeURI
为什么要用这种方法呢？原因很简单：GBK和UTF-8对于%、数字、字母的编码是统一的，所以在传输encode之后的串可以100%保证在这两种编码下得到的是同一个东西，然后再decode得到字符串就可以。根据String的格式可以猜测encode和decode的效率是非常非常高的，所以这也算是一种很好的解决方法了。
第二种解决方法：统一编码格式
这边使用的是Webx矿建，只需要将webx.xml中设置defaultCharset="UTF-8"就可以了。

java string类的常用方法详细介绍

String : 字符串类型一.构造函数复制代码代码如下: String(byte[ ] bytes):通过byte数组构造字符串对象. String(char[ ] value):通过char数组构造字符串对象. String(Sting original):构造一个original的副本.即:拷贝一个original. String(StringBuffer buffer):通过StringBuffer数组构造字符串对象. 例如: 复制代码代码如下: byte[] b = {'a',
java中String的一些方法深入解析

1.public String(char[] c,begin,length).从字符数组c的下标begin处开始,将长度为length的字符数组转换为字符串.begin与length可以省略,即将字符数组c转换为字符串.另:字符数组可改为字节数组byte[] b.char[] c=new char[]{'j','y','6','a','4','t','9'}; String s1=new String(c); String s=new String(c,2,3); System.out.prin
java string类方法深入解析

复制代码代码如下: import java.nio.charset.Charset;import java.nio.charset.UnsupportedCharsetException;import java.util.Locale;import java.util.Date;import java.util.regex.PatternSyntaxException; import javax.xml.crypto.Data; public class Stringxuexi { publ
Java中的String对象数据类型全面解析

1. 首先String不属于8种基本数据类型,String是一个对象. 因为对象的默认值是null,所以String的默认值也是null;但它又是一种特殊的对象,有其它对象没有的一些特性. 2. new String()和new String("")都是申明一个新的空字符串,是空串不是null; 3. String str="kvill"; String str=new String ("kvill");的区别: 在这里,我们不谈堆,也不谈栈,只
JAVA中STRING的常用方法小结

一.创建并初始化一个字符串 String b = "hello"; 使用构造方法创建并初始化一个字符串 String();//初始化字符串,表示空字符序列 String(value);//利用已存在的字符串常量创建一个新的对象 String (char[] value);//利用一个字符数组创建一个字符串 String(char[] value,int offset,int count);//截取字符数组offset到count的字符创建一个非空串 String(StringBuffe
浅析JAVA中toString方法的作用

因为它是Object里面已经有了的方法,而所有类都是继承Object,所以"所有对象都有这个方法". 它通常只是为了方便输出,比如System.out.println(xx),括号里面的"xx"如果不是String类型的话,就自动调用xx的toString()方法总而言之,它只是sun公司开发java的时候为了方便所有类的字符串操作而特意加入的一个方法回答补充:写这个方法的用途就是为了方便操作,所以在文件操作里面可用可不用例子1: 复制代码代码如下: publ
java string的一些细节剖析

首先说明这里指的是Java中的String,虽然我已经决定转战C/C++了,但是因为今天碰到一个问题,还是来看一下.String的定义如下: 复制代码代码如下: public final class String { private final char value[]; // 保存的字符串 private final int offset; // 开始的位置 private final int count; // 字符数目 private int hash; // 缓存的hash值 ....
十大常见Java String问题_动力节点Java学院整理

本文介绍Java中关于String最常见的10个问题: 1. 字符串比较,使用 "==" 还是 equals() ? 简单来说, "==" 判断两个引用的是不是同一个内存地址(同一个物理对象). 而 equals 判断两个字符串的值是否相等. 除非你想判断两个string引用是否同一个对象,否则应该总是使用 equals()方法. 如果你了解字符串的驻留 ( String Interning ) 则会更好地理解这个问题 2. 对于敏感信息,为何使用char[]要比
Java String字符串补0或空格的实现代码

废话不多说了,关键代码如下所示: package cn.com.songjy; import java.text.NumberFormat; //Java 中给数字左边补0 public class NumberFormatTest { public static void main(String[] args) { // 待测试数据 int i = 1; // 得到一个NumberFormat的实例 NumberFormat nf = NumberFormat.getInstance(); /
java string类型转换boolean类型的方法

今天偶然想把string 类型转换成 boolean 类型 ,查了下api文档,发现文档似乎有点不太对经... 嗯,就直接发测试代码吧,废话懒得说了... String s1 = "false"; String s2 = "true"; String s3 = "fAlSe"; String s4 = "TrUe"; String s5 = "true_a"; 以上的string 分别用 Boolean.g
java String 转成Double二维数组的方法

WHY 朋友在群里求助一个问题,问题原型是这样的: String str = "{{10.14, 11.24, 44.55, 41.01},{12.10, 14.21, 52.14, 50.44},{14.44, 16.12, 45.42, 47.55}}"; 转成double[][]{ {10.14, 11.24, 44.55, 41.01}, {12.10, 14.21, 52.14, 50.44}, {14.44, 16.12, 45.42, 47.55} } 也就是把一个可以转
Java String转换时为null的解决方法

开发中经常遇到从集合类List.Map中取出数据转换为String的问题,这里如果处理不好,经常会遇到空指针异常java.lang.NullPointerException,在此总结一下常用转换为String的方法,以及转换后如何对其进行判null使用的问题. Java中对象转换为String的常用方法: 方法一:String objStr = (String) obj: 强制类型转换,对象obj为null,结果也为null,但是obj必须保证其本质是String类型的值,即可转换的值.
java String的深入理解

java String的深入理解一.Java内存模型按照官方的说法:Java 虚拟机具有一个堆,堆是运行时数据区域,所有类实例和数组的内存均从此处分配. JVM主要管理两种类型内存:堆和非堆,堆内存(Heap Memory)是在 Java 虚拟机启动时创建,非堆内存(Non-heap Memory)是在JVM堆之外的内存. 简单来说,非堆包含方法区.JVM内部处理或优化所需的内存(如 JITCompiler,Just-in-time Compiler,即时编译后的代码缓存).每个类结构(如
Java String、StringBuffer与StringBuilder的区别

String 字符串常量 StringBuffer 字符串变量(线程安全) StringBuilder 字符串变量(非线程安全) 简要的说, String 类型和 StringBuffer 类型的主要性能区别其实在于 String 是不可变的对象, 因此在每次对 String 类型进行改变的时候其实都等同于生成了一个新的 String 对象,然后将指针指向新的 String 对象,所以经常改变内容的字符串最好不要用 String ,因为每次生成对象都会对系统性能产生影响,特别当内存中无引用对象多
Java String 和StringBuffer的详解及区别

Java String 和StringBuffer的详解及区别 Java平台提供了两个类:String和StringBuffer,它们可以储存和操作字符串,即包含多个字符的字符数据.String类表示内容不可改变的字符串.而StringBuffer类表示内容可以被修改的字符串. 当你知道字符数据要改变的时候你就可以使用StringBuffer.典型地,你可以使用StringBuffers来动态构造字符数据.另外,String实现了equals方法,new String("abc"
Java String 和 new String()的比较与区别

Java String 和 new String()的区别栈区存引用和基本类型,不能存对象,而堆区存对象.==是比较地址,equals()比较对象内容. String str1 = "abcd"的实现过程:首先栈区创建str引用,然后在String池(独立于栈和堆而存在,存储不可变量)中寻找其指向的内容为"abcd"的对象,如果String池中没有,则创建一个,然后str指向String池中的对象,如果有,则直接将str1指向"abcd"&qu

java string的一些细节剖析

相关推荐

随机推荐