使用python批量转换文件编码为UTF-8的实现

2025-02-23 10:36:30

由于这两天换了IDE，在导入以前的工程的时候发现了一个大问题，由于以前脑残的我不知道改编码方式，导致出现了大量的GBK，这就很难受，要是一个两个还好说，可是这么多要是一个一个的改我会觉得现在的我比以前还脑残，于是乎，我就想用python批量的修改一下，然后就产生了这篇文章，其中好多不足的地方还请大佬指导

本来一开始的思路还是比较清晰，觉得也比较简单，天真的认为用GBK的方式读取出文件内容，然后UTF8写入就好了，可是在实际的操作中我发现我就是太天真了，出现了大量的问题，比如说：

怎么查看文件的编码方式

好吧我承认就出现了这一个问题。

那么遇到问题我们该怎么办呢，没错，Google，果然功夫不负会Google人，我看到了一个函数，就是chardet.detect()函数，当然要导入chardet模块，也就是pip，如果是Anaconda的环境当我没说，pip了不要打我。言归正传，这个函数是干嘛用的呢？

这个函数会返回一个含有三个键值对的字典类型

‘encoding': 编码方式
‘confidence': 检测的正确率
‘language' : 语言

是不是看到encoding后眼前一亮，这样取出encoding的值然后比较不知道是啥了，然后我就在一边感叹python的强大的第三方库的支持一边开始了对这个函数的测试，先建两个txt，然后脸滚键盘，保存的时候一个是UTF-8，一个是GBK，值得竹注意的是读取方式应该是二进制，也就是'rb'，接着就是兴致勃勃地Ctrl Shift F10，出现了惊人的一幕：

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

看看，看看这美丽的单引号，然后直接和”utf-8”比较不就结束了，万万没想到，他竟然是False，我还以为我看错了，就疯狂Ctrl F5，等待奇迹的出现，功夫不负有心人，果然，奇迹没有出现，于是我type了一下，嗯，果然是str类型的，又试了下和”utf-8”比较不就结束了，没错，结果是True，你们听我解释，我昨天做的时候真不是这样的，不管了，写都写了，按昨天的思路来吧，大家凑活看吧（不要打我），现在我们假设他是False，并且类型是NoneType，并且转为str后是None，你们要相信我昨天真的是这样的！

好了就这样吧，那既然是无法比较怎么办呢，没错，拿出一开始脸滚键盘的那两个测试文件来，用他们呢读取出的字典的值作比较不就好了（一说到这我就莫名的心痛），然后我们在想一下是把文件编码改为UTF-8，所以本来就是UTF-8的我们就不用管他，我都脸滚键盘的建测试文件了我还在意这些细节干嘛，不说了，难受，效果图也不贴了，直接上代码你们自己看吧。。。

# coding utf-8
import os
import chardet

# 获得所有java文件的路径,传入根目录路径
def find_all_file(path: str) -> str:
  for root, dirs, files in os.walk(path):
    for f in files:
      if f.endswith('.java'):
        fullname = os.path.join(root, f)
        yield fullname
      pass
    pass
  pass

# 判断是不是utf-8编码方式
def judge_coding(path: str) -> dict:
  with open('utf.txt', 'rb') as f:  # 删除就行
    utf = chardet.detect(f.read()) # 同上

  with open(path, 'rb') as f:
    c = chardet.detect(f.read())

  if c != utf:            # 改为 c != 'utf-8'
    return c

# 修改文件编码方式
def change_to_utf_file(path: str):
  for i in find_all_file(path):
    c = judge_coding(i)
    if c:
      change(i, c['encoding'])
      print("{} 编码方式已从{}改为 utf-8".format(i, c['encoding']))

def change(path: str, coding: str):
  with open(path, 'r', encoding=coding) as f:
    text = f.read()

  with open(path, 'w', encoding='utf-8') as f:
    f.write(text)

# 查看所有文件编码方式
def check(path: str):
  for i in find_all_file(path):
    with open(i, 'rb') as f:
      print(chardet.detect(f.read())['encoding'], ': ', i)

def main():
  my_path = 'C:\\WorkSpace'
  change_to_utf_file(my_path)
  # check(my_path)

if __name__ == '__main__':
  main()

到此这篇关于使用python批量转换文件编码为UTF-8的实现的文章就介绍到这了,更多相关python批量转换UTF-8内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

python实现JAVA源代码从ANSI到UTF-8的批量转换方法

本文实例讲述了python实现JAVA源代码从ANSI到UTF-8的批量转换方法.分享给大家供大家参考.具体如下: 喜欢用eclipse的大神们,可能一不小心代码就变成ANSI码了,需要转换成utf-8嘛,一个文件一个文件的在Notepad2或者notepad++里面转换么?不,这里有批量转换的程序,python实现,需要的拿去用吧. ansi2utf8.py: #-*- coding: utf-8 -*- import codecs import os import shutil import
Python实现把utf-8格式的文件转换成gbk格式的文件

需求:将utf-8格式的文件转换成gbk格式的文件实现代码如下: 复制代码代码如下: def ReadFile(filePath,encoding="utf-8"): with codecs.open(filePath,"r",encoding) as f: return f.read() def WriteFile(filePath,u,encoding="gbk"): with codecs.open(
使用python批量转换文件编码为UTF-8的实现

由于这两天换了IDE,在导入以前的工程的时候发现了一个大问题,由于以前脑残的我不知道改编码方式,导致出现了大量的GBK,这就很难受,要是一个两个还好说,可是这么多要是一个一个的改我会觉得现在的我比以前还脑残,于是乎,我就想用python批量的修改一下,然后就产生了这篇文章,其中好多不足的地方还请大佬指导本来一开始的思路还是比较清晰,觉得也比较简单,天真的认为用GBK的方式读取出文件内容,然后UTF8写入就好了,可是在实际的操作中我发现我就是太天真了,出现了大量的问题,比如说: 怎么查看文件的编
Python实现批量转换文件编码的方法

本文实例讲述了Python实现批量转换文件编码的方法.分享给大家供大家参考.具体如下: 这里将某个目录下的所有文件从一种编码转换为另一种编码,然后保存 import os import shutil def match(config,fullpath,type): flag=False if type == 'exclude': for item in config['src']['exclude']: if fullpath.startswith(config['src']['path']+o
vbs脚本实现批量转换文件编码

最近需要使用SourceInsight查看分析在Linux系统下开发的项目代码,我们知道Linux系统中文本文件默认编码格式是UTF-8,而Windows中文系统中的默认编码格式是Gb2312.系统内的编码格式有所区别倒无伤大雅,关键的是SourceInsight竟不支持UTF-8,导致项目代码内的中文注释全部乱码! 既然SourceInsight不支持UTF-8编码的文件,那我们就得想办法将UTF-8的代码文件转化为GB2312编码的.首先想到的是到网上搜一下"批量编码转换工具",结
python实现批量转换文件编码(批转换编码示例)

复制代码代码如下: # -*- coding:utf-8 -*-__author__ = 'walkskyer' import osimport glob class Encoding: def __init__(self): #文件扩展名 self.ext = ".*" #编码 self.srcEncoding=None self.dstEncoding=None def convertEncoding(s
Python批量转换文件编码格式

自己写的方法,适用于linux, #!/usr/bin/python #coding=utf-8 import sys import os, os.path import dircache import commands def add(x,y): return x*y def trans(dirname): lis = dircache.opendir(dirname) for a in lis: af=dirname+os.sep+a ## print af if os.path.isdir
Java批量转换文件编码格式的实现方法及实例代码

一.场景说明不知道大家有没有遇到过之前项目是GBK,现在需要全部换成UTF-8的情况.反正我是遇到了. eclipse可以改变项目的编码格式,但是文件如果直接转换的话里面的中文就会全部乱码,需要先复制文件内容然后改变文件格式,再全选粘贴(可能有其它更好的方法我不知道), 这样的话一个项目要全部一个一个文件改,想想都难受.作为一个程序猿,就写了个简单的方法让程序处理. 思路:方法很简单,遍历项目文件夹-筛选java扩展文件-把文件编码从GBK转换成UTF-8. 注意:编码格式一定不要弄错,建议
使用iconv批量改变文件编码的shell脚本

这篇文章主要介绍了编写shell脚本,使用iconv批量改变文件编码的脚本代码,需要的朋友可以参考下. 用法示例: cd ~/workspace/XXXProject ~/iconv_shell.sh ./ *java 好了,直接上代码~~ #!/bin/bash if [ "$#" != "2" ]; then echo "Usage: `basename $0` dir filter" exit fi dir=$1 filter=$2 ech
python中判断文件编码的chardet(实例讲解)

1.实测,这个版本在32位window7和python3.2环境下正常使用. 2.使用方法:把解压后所得的chardet和docs两个文件夹拷贝到python3.2目录下的Lib\site-packages目录下就可以正常使用了. 3.判断文件编码的参考代码如下: file = open(fileName, "rb")#要有"rb",如果没有这个的话,默认使用gbk读文件. buf = file.read() result = chardet.detect(buf)
python批量修改文件编码格式的方法

本文实例为大家分享了python批量修改文件编码格式的具体代码,供大家参考,具体内容如下使用说明: 1.使用工具:Python2.7.6+chardet2.3.0,chardet2.3.0下载地址:点击这里 2.环境配置:Python安装+配置环境变量,chardet解压放在Python安装目录\Lib\site-packages下举例:批量修改当前路径下所有.cpp文件的编码格式为UTF-8,代码如下: python: import os import sys import codecs
python批量处理文件或文件夹

本文实例为大家分享了python批量处理文件或文件夹的具体代码,供大家参考,具体内容如下 # -*- coding: utf-8 -*- import os,shutil import sys import numpy as np ##########批量删除不同文件夹下的同名文件夹############# def arrange_file(dir_path0): for dirpath,dirnames,filenames in os.walk(dir_path0): if 'my_resu

使用python批量转换文件编码为UTF-8的实现

相关推荐

随机推荐