Java避免UTF-8的csv文件打开中文出现乱码的方法

本文实例讲述了Java避免UTF-8的csv文件打开中文出现乱码的方法。分享给大家供大家参考,具体如下:

最近又遇到了需要提供csv下载功能的需求,不同的时需要用java来实现,心想简单,就把以前php的版本重写了一遍,然后生成一份csv,用excel2007打开一看,里面的中文都是乱码,一下就懵了,以前好好的功能怎么突然不行了??以前也一直用2007的啊!于是开始了漫长的google之旅。

看来看去,说的都是输出utf-8格式的csv需要在文件头先输出BOM(BOM不懂的可以google了),即0xEF 0xBB 0xBF三个字节,这样更摸不着头脑了,明明是对的,偏偏不成功,直到发现一个帖子:http://stackoverflow.com/a/9337150/1794493 ,里面提到2007需要装sp3才能识别BOM,shit!原来是这回事!里面同时又提到,用utf-16le编码输出貌似更通用,经测试确实如此,但是utf-16le的BOM是0xFF 0xFE,帖子里面说错了!下面是一个简单的测试结果:

excel版本 附加包 编码  测试结果
2007 sp3 utf-8 yes
2007 utf-8 no
2007 sp3 utf-16le yes
2007 utf-16le yes
2011 utf-8 no
2011 utf-16le yes

因为条件有限,只测试了这几个版本,可见utf-16le是更通用的编码格式。下面附上java代码,main方法中采用utf-16le编码,最后调用了utf8编码的方法,最后会输出两种编码格式的csv文件:

import java.io.*;
/**
 * Created by zhaozhi on 15-5-29.
 */
public class TestCSV {
  public static String join(String[] strArr, String delim) {
    StringBuilder sb = new StringBuilder();
    for(String s : strArr) {
      sb.append(s);
      sb.append(delim);
    }
    String ret;
    if (strArr.length > 1) {
      ret = sb.substring(0, sb.length()-1);
    }
    else {
      ret = sb.toString();
    }
    return ret;
  }
  public static void main (String[] args) throws Exception {
    String[] heads = {"日期", "产品", "订单数"};
    String[][] rows = {
        {"20150228", "安卓", "23"},
        {"20150301", "web", "34"}
    };
    byte[] bom = {(byte)0xFF, (byte)0xFE};
    String fname = "d:\\utf-16le.csv";
    BufferedOutputStream bo = new BufferedOutputStream(new FileOutputStream(fname));
    bo.write(bom);
    bo.write(join(heads, "\t").getBytes("utf-16le"));
    bo.write("\n".getBytes("utf-16le"));
    for (String[] row : rows) {
      bo.write(join(row, "\t").getBytes("utf-16le"));
      bo.write("\n".getBytes("utf-16le"));
    }
    bo.close();
    UTF8();
  }
  public static void UTF8() throws IOException {
    String line = "中文,标题,23";
    OutputStream os = new FileOutputStream("d:/utf-8.csv");
    os.write(239);  // 0xEF
    os.write(187);  // 0xBB
    os.write(191);  // 0xBF
    PrintWriter w = new PrintWriter(new OutputStreamWriter(os, "UTF-8"));
    w.print(line);
    w.flush();
    w.close();
  }
}

更多关于java相关内容感兴趣的读者可查看本站专题:《Java编码操作技巧总结》、《Java数学运算技巧总结》、《Java数据结构与算法教程》、《Java字符与字符串操作技巧总结》、《Java操作DOM节点技巧总结》和《Java缓存操作技巧汇总》

希望本文所述对大家java程序设计有所帮助。

(0)

相关推荐

  • Java Web开发项目中中文乱码解决方法汇总

    Java Web项目中,解决中文乱码方法总结如下 第一种情况:调用jsp页面中文显示乱码 问题描述:通过浏览器调用jsp页面,在浏览器中显示的中文内容出现乱码. 解决方法:首先确认本jsp在编辑器中保存文件内容时,使用的是utf-8的编码格式,然后在jsp页面的开始处添加<%@ pageEncoding="utf-8"%>就可以解决这种中文乱码问题 第二种情况:调用servlet页面显示乱码 问题描述:通过浏览器调用servlet,servlet在浏览器中显示的内容出现乱码

  • java中文乱码之解决URL中文乱码问题的方法

    我们主要通过两种形式提交向服务器发送请求:URL.表单.而表单形式一般都不会出现乱码问题,乱码问题主要是在URL上面.通过前面几篇博客的介绍我们知道URL向服务器发送请求编码过程实在是实在太混乱了.不同的操作系统.不同的浏览器.不同的网页字符集,将导致完全不同的编码结果.如果程序员要把每一种结果都考虑进去,是不是太恐怖了?有没有办法,能够保证客户端只用一种编码方法向服务器发出请求? 有!这里我主要提供以下几种方法 一.javascript 使用javascript编码不给浏览器插手的机会,编码之

  • Java解决通信过程的中文乱码的问题

     Java解决通信过程的中文乱码的问题 前言: Java的编程中,经常会碰到汉字的处里及显示的问题,比如一大堆乱码或问号. 这是因为JAVA中默认的编码方式是UNICODE,而中国人通常使用的文件和DB都是基于GB2312或者BIG5等编码,故会出现此问题. 如果文件一打开就乱码,可以通过修改软件的编码或者修改文件的编码就可以觉得这个问题.而若是在java的通信中,或者数据库操作之类的其他软件进程通信时,就容易产生乱码. 1.在网页中输出中文. JAVA在网络传输中使用的编码是"ISO-8859

  • java页面中文乱码的解决办法

    在页面提交到tomcat乱码 解决方法是在tomcat/conf/server.xml中进行配置以tomcat6.0.32为例,需将以下代码:Xml代码 复制代码 代码如下: <Connectorport="8080"protocol="HTTP/1.1"connectionTimeout="20000"redirectPort="8443"/><Connector port="8080"

  • Java 解决读写本地文件中文乱码的问题

    Java 解决读写本地文件中文乱码的问题 前言: 在用Java程序进行读写含中文的txt文件时,经常会出现读出或写入的内容会出现乱码.原因其实很简单,就是系统的编码和程序的编码采用了不同的编码格式.通常,假如自己不修改的话,windows自身采用的编码格式是gbk(而gbk和gb2312基本上是一样的编码方式),而IDE中Encode不修改的话,默认是utf-8的编码,这就是为什么会出现乱码的原因.当在OS下手工创建并写入的txt文件(gbk),用程序直接去读(utf-8),就会乱码.为了避免可

  • 解决Java原生压缩组件不支持中文文件名乱码的问题

    最近发现Java原生的Zip压缩组件在压缩过程中,不支持文件名的中文编码,会在压缩过程中把中文文件名变成乱码.Apache的ant包中的压缩组件修复了这个问题,如果你在使用压缩功能时需要支持中文文件名,建议你直接使用Apache的压缩组件来实现这个功能. 具体使用方法: 1.在你的pom文件中增加对Apache的ant工具包的dependency: <dependency> <groupId>org.apache.ant</groupId> <artifactId

  • Java读写txt文件时防止中文乱码问题出现的方法介绍

    问题:在用Java程序进行读写含中文的txt文件时,经常会出现读出或写入的内容会出现乱码.原因其实很简单,就是系统的编码和程序的编码采用了不同的编码格式.通常,假如自己不修改的话,windows自身采用的编码格式是gbk(而gbk和gb2312基本上是一样的编码方式),而IDE中Encode不修改的话,默认是utf-8的编码,这就是为什么会出现乱码的原因.当在OS下手工创建并写入的txt文件(gbk),用程序直接去读(utf-8),就会乱码.为了避免可能的中文乱码问题,最好在文件写入和读出的时候

  • java中常见的中文乱码总结

    乱码现象产生的原因:由于编码方式的不同,才会出现乱码的情况. 哪里会产生乱码:1.页面  2.url地址  3.数据库乱码  4.数据提交(form,ajax)  5.开发工具 怎么解决: 1.统一开发工具的编码设置 2.设置应用服务器的编码方式,如:端口号,编码方式 3.数据库本身的编码方式 4.强制设置request和response的数据编码方式(同时也可以采用过滤器的方式拦截所有的编码方式) 5.采用代码方式强转数据编码方式(UrlEncode.encode("你好",&quo

  • Java读取properties配置文件时,出现中文乱码的解决方法

    如下所示: public static String getConfig(String key) { Properties pros = new Properties(); String value = ""; try { pros.load(new InputStreamReader(Object.class.getResourceAsStream("/properties.properties"), "UTF-8")); value = pr

  • Java读写.properties文件解决中文乱码问题

    一般使用到properties配置文件,一般都是在spring项目里面,直接由框架帮你读,当然,你也得考虑到编码的问题. 但是现在要是要求使用Java直接读写properties文件,就发现很多的问题,比如,我的properties文件的编码竟然不是utf-8的.或者说我压根就没考虑到这个问题. 再比如,当properties文件里面有汉子的时候,发现读写的汉字乱码了,在我这是因为我的电脑默认编码是gbk,但是读的时候,又没有设置编码,搞出的问题. 下面直接上代码,看问题. package co

  • Java中HttpServletResponse响应中文出现乱码问题

    以字符串的形式输出. 1.response.getWriter().write("您好中国hello"); 如果这样输出的话.则浏览器结果为: 2.加上代码 response.setCharacterEncoding("UTF-8"); response.getWriter().write("您好中国hello"); 则浏览器结果为: 这是因为浏览器解析问题. 加上代码: response.setHeader("Content-type

随机推荐