Java在创建文件时指定编码的实现方法

目录
  • 一、问题分析
  • 二、字符编码
  • 三 、问题解决

前言:最近,学习了Java IO流的相关的知识,想通过读写文件的方式练习和巩固所学知识。在使用File类创建文件时,突然想到,我该如何指定文件使用的编码呢? 进而想到,应该如何查看一个文件的编码呢?

一、问题分析

先去互联网上查找答案,结果如下:

FileInputStream fis=new FileInputStream(“xxxx.txt”);
OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);

上面的代码大概意思是在写入文件时,写入的字符使用UTF-8编码,和我预想的不一样,我想在创建文件的同时指定编码。像下面这样,

File myfile = new File("test.txt”, “UTF-8”);
if (!myfile.exists()) myfile.createNewFile();

于是,我去查看Java API 8官方文档,File没有提供可以指定字符编码的构造函数。

同时也没提供set或者get等其他访问字符字符编码的方法,说明字符编码不是文件的固有属性。像文件创建时间,文件修改时间,是否可读、可写、可执行,这些都是文件的固有属性,或者说元信息,它们是文件的一部分。

二、字符编码

我们知道,计算机中存储的任何信息都是01串,文字也不例外。

对于字符的处理包括两个过程:编码和解码

编码:把字符"映射“到01串
解码:把01串"映射“到字符

不同的字符编码,例如GBK、UTF-8,编码和解码使用的规则不同。

对于同样的文本字符串:“中国”,使用UTF-8编码保存,一般使用三个字节保存一个汉字,(底层的01字符串的16进制形式)。

使用GBK编码保存,使用两个字节表示一个汉字。

当我们在文本编辑器中写好文字保存时,编辑器会根据你设置的字符编码类型将文本”映射“成01串。

你设置的字符类型,仅仅是编辑器把文字编码成成10串的转换规则而已,并不是文本的属性。

在编辑器打开文本文件时,显示的不是底层的01串,而是文字,是因为编辑器使用某种文字编码,把01串解码为字符。如果,解码时,使用的字符编码和编码时的一致或者兼容,就可以正确显示文本。如果解码时,使用的字符编码和编码时的不一致或者不兼容,就会乱码。

例如,我有一个文本文件使用的是GBK编码,内容是”明月几时有“,

我使用VS code (微软的一款非常好用的文本编辑器)打开文件,用术语说,就是解码文件。其默认使用的文字编码是UTF-8,解码相同。但是,因为我的文本底层是GBK编码的01串(两个字节一个字符),使用UTF-8解码01串,由于编码,解码不一致,必然会导致乱码。这时,只要手动选择对应的GBK编码,解码文件就不会乱码了。

乱码也从侧面说明了,字符编码不是文件的固有属性

扯了这么多,就是为了说明这一点:字符编码就是解码和编码时用的规则,不是文件的固有属性。

我不禁产生疑惑,为什么当初不把字符编码设置为文件属性的一部分呢?

假设可以设置,并且设置为GBK,那么操作系统需要维护改功能。像一个文件是不可写的,那么有程序试图写文件,操作系统会拒绝写入一样,操作系统必须写入的字节必须是满足GBK编码要求,那么每次写入字节,操作系统都需要检查该字节的合法性,这需要非常大的性能开销,甚至是无法实现的,因为有些特殊字节即可以表示GBK,也可以表示UTF-8,是有歧义的。在说,做这一些的意义是什么,为了编辑器可以在打开文件的时候,可以根据编码属性选择正确的编码吗?没有必要,智能的编辑器,可以根据内容的前几个字节,推断出你的01串使用了什么编码。另外,你也可以手动设置解码所用的字符编码。

三 、问题解决

在创建文件的时候,无法指定文件的编码。在将文字写入(例如文本编辑器的Ctrl + S 保存,本质执行的就是写入操作)文件时,可以选择将文字转换为01串的编码规则。

针对Java程序,代码如下,正是文章最开始提及的代码:

FileInputStream fis=new FileInputStream(“xxxx.txt”);
OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);

到此这篇关于Java在创建文件时指定编码的实现方法的文章就介绍到这了,更多相关Java创建文件时指定编码内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • java按指定编码写入和读取文件内容的类分享

    可以指定编码如:utf-8来写入和读取文件.如果文件编码未知,可以通过该方法先得到文件的编码后再指定正确的编码来读取,否则会出现文件乱码问题. 如何识别文件编码请参考:java自动根据文件内容的编码来读取避免乱码 复制代码 代码如下: package com.zuidaima.util; import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputS

  • Java在创建文件时指定编码的实现方法

    目录 一.问题分析 二.字符编码 三 .问题解决 前言:最近,学习了Java IO流的相关的知识,想通过读写文件的方式练习和巩固所学知识.在使用File类创建文件时,突然想到,我该如何指定文件使用的编码呢? 进而想到,应该如何查看一个文件的编码呢? 一.问题分析 先去互联网上查找答案,结果如下: FileInputStream fis=new FileInputStream("xxxx.txt"): OutputStreamWriter osw=new OutputStreamWrit

  • iOS Xcode创建文件时自动生成的注释方法

    之前换了电脑,发现用xcode新建文件生成的注释变成了我不想要的效果(如下图) 一.修改系统默认注释 下面分别描述一下"创建者"."创建时间"."机构名称"以及"类名前缀"如何编辑. 1.编辑创建者: 进入路径:系统偏好设置/用户与群组/右击当前用户进入"高级选项" 编辑"全名"为需要的名称,如图: 2.编辑"创建时间"格式: 进入路径:系统偏好设置/日期与时间/打开

  • python创建文件时去掉非法字符的方法

    windows系统中文件名不能包含 \ / : * ? " < > |想要创建必须过滤掉这些字符 def setFileTitle(self,title): fileName = re.sub('[\/:*?"<>|]','-',title)#去掉非法字符 self.file = open(fileName + ".txt","w+") 利用正则去掉非法的字符. 以上这篇python创建文件时去掉非法字符的方法就是小编分享

  • 动态创建script在IE中缓存js文件时导致编码的解决方法

    先看下重现代码 1, gb2312.html 该文件编码为gb2312 复制代码 代码如下: <!DOCTYPE html> <html> <head> <title></title> <meta charset="gb2312"/> <style> p { color: red; } </style> </head> <body> <button onclic

  • Java实现创建运行时类的对象操作示例

    本文实例讲述了Java实现创建运行时类的对象操作.分享给大家供大家参考,具体如下: 获取运行时类的方法: public void test() throws ClassNotFoundException { /* * Class类是反射的源头 * 创建一个类,通过编译(javac.exe),生成对应的.class文件,之后使用java.exe加载(JVM的类加载器完成的)此.class文件. * 此.class文件加载到内存后,就是一个运行时类,存放在缓存区. * 那么这个运行时类本身就是一个C

  • 对Pycharm创建py文件时自定义头部模板的方法详解

    如下所示: # -*- coding: utf-8 -*- """ ------------------------------------------------- File Name: ${NAME} Description : Author : ${USER} date: ${DATE} ------------------------------------------------- Change Activity: ${DATE}: ----------------

  • Pycharm创建文件时自动生成文件头注释(自定义设置作者日期)

    有时候我们传.py文件给别人时,需要添加一些文件头注释.为了不用每次新建文件时都去手动添加作者.创建日期等信息,我们可以设置一套模板,在新建.py文件的时候自动使用这套模板. 一. 模板设置 1.1 操作步骤 打开pycharm后,点击 File --> Settings ,进入设置界面 点击 Editor --> File and Code Templates --> Python Script 在右侧添加上你想注释的内容,如下图所示 代码模板如下(可以根据自己需要进行修改) #!/u

  • docker 创建容器时指定容器ip的实现示例

    Docker创建容器时默认采用bridge网络,自行分配ip,不允许自己指定. 在实际部署中,我们需要指定容器ip,不允许其自行分配ip,尤其是搭建集群时,固定ip是必须的. 我们可以创建自己的bridge网络 : mynet,创建容器的时候指定网络为mynet并指定ip即可. 查看网络模式 docker network ls 创建一个新的bridge网络 docker network create --driver bridge --subnet=172.18.12.0/16 --gatewa

  • Java实现大文件的分割与合并的方法详解

    目录 一.题目描述-合并多个文本文件 1.题目 2.解题思路 3.代码详解 二.题目描述-对大文件进行分割处理 1.题目 2.解题思路 3.代码详解 三.题目描述-分割后又再次合并 1.题目 2.解题思路 3.代码详解 4.多学一个知识点 一.题目描述-合并多个文本文件 1.题目 题目:做一个合并多个文本文件的工具. 2.解题思路 创建一个类:TextFileConcatenation 使用TextFileConcatenation继承JFrame构建窗体 读取文本文件时,用的是Buffered

  • 在Python文件中指定Python解释器的方法

    以下针对Ubuntu系统,Windows系统没有测试过. Ubuntu中默认就安装有Python 2.x和Python 3.x,默认情况下python命令指的是Python 2.x.因此当将Python脚本设为可执行文件直接在命令行里执行时,系统调用的是Python 2.x的解释器. 如果在直接执行Python脚本(例如在命令行直接输入xxx.py)时,想调用Python 3.x解释器去解释脚本,一种方法是修改符号链接,让python命令指向Python3.这种方法在自己的系统上还行得通,如果脚

随机推荐