python轻松实现代码编码格式转换

2025-04-06 09:57:46

　　最近刚换工作不久，没太多的时间去整理工作中的东西，大部分时间都在用来熟悉新公司的业务，熟悉他们的代码框架了，最主要的是还有很多新东西要学，我之前主要是做php后台开发的，来这边之后还要把我半路出家的前端学好、还要学习C++，哈哈，总之很充实了，每天下班回家都可以睡的很香（一句话总结，就是吃得香、睡的香~）。再说说换工作时候吧，今年年初正式毕业半年了，感觉自己技术增长很快，原公司里面程序员的地位还不如运营，所以想换个工作，面试了3家（2家大的、一家小的），都给offer了，当然从大公司里面挑了个各方面综合（工资、干什么、交通等等）还不错的，反正感觉就很顺利的进来了（比毕业的时候容易多了），哈哈，越努力、越幸运，越幸运、越努力！。从这周开始，继续整理博客，免得给自己造成懒得习惯。

　　刚来这个公司，熟悉了环境，老大就开始让我做一个迁移、修改代码的工作，我想说的是，这种工作真没劲~~，看别人的代码、改别人的代码、这里改个变量、那里改个文件名······，都是些没技术含量、很繁琐的事情，不过通过迁移代码顺便熟悉下环境也好。扯了这么多，说说今天的主题吧——代码编码格式改变，由于某些原因，需要将代码从A机房迁移到B机房，这两个之间不能互相访问，但是历史原因导致A机房的代码全是utf8编码的，B机房要求是GBK编码，看看这个怎么解决。

编码问题
　　先说说为什么会有编码问题，就拿上面那个例子来说，B机房这边数据库全是GBK编码的，因此从数据库中取出来的数据都是GBK的，从数据库中取出来的数据是GBK编码的，要在展示的时候不乱码，在不对数据库取出的数据转换的情况下，就需要发送header的时候设置编码为GBK，输出的文件（html、tpl等）都必须是GBK的，看看下面这个图会更清楚点：

　　　　DB（GBK） => php等（编码格式不限但如果代码文件中有汉字，文件就要是gbk编码或者在汉字输出的时候转化为gbk） => header(GBK) => html、tpl（GBK）

　　或者还有一种方式只在出库的时候在代码中将utf8转化为gbk，总的来说utf8还是更流行点，问题更少点

　　　　DB(GBK) => php等(utf8，并将从数据库取出的数据转化为utf8) => header(utf8) => html、tpl(utf8)

　　只要按照上面这两种规范编码格式，就不会出现乱码情况，起码我测试的第一种方式是没问题的，所以我猜第二种也ok，好了，现在就来写一个转换文件编码格式的小脚本：

#!/usr/bin/python
# -*- coding: utf-8 -*-
#Filename:changeEncode.py
import os
import sys

def ChangeEncode(file,fromEncode,toEncode):
  try:
    f=open(file)
    s=f.read()
    f.close()
    u=s.decode(fromEncode)
    s=u.encode(toEncode)
    f=open(file,"w");
    f.write(s)
    return 0;
  except:
    return -1;

def Do(dirname,fromEncode,toEncode):
  for root,dirs,files in os.walk(dirname):
    for _file in files:
      _file=os.path.join(root,_file)
      if(ChangeEncode(_file,fromEncode,toEncode)!=0):
        print "[转换失败:]"+_file
      else:
        print "[成功：]"+_file

def CheckParam(dirname,fromEncode,toEncode):
  encode=["UTF-8","GBK","gbk","utf-8"]
  if(not fromEncode in encode or not toEncode in encode):
    return 2
  if(fromEncode==toEncode):
    return 3
  if(not os.path.isdir(dirname)):
    return 1
  return 0

if __name__=="__main__":
  error={1:"第一个参数不是一个有效的文件夹",3:"源编码和目标编码相同",2:"您要转化的编码不再范围之内：UTF-8，GBK"}
  dirname=sys.argv[1]
  fromEncode=sys.argv[2]
  toEncode=sys.argv[3]
  ret=CheckParam(dirname,fromEncode,toEncode)
  if(ret!=0):
    print error[ret]
  else:
    Do(dirname,fromEncode,toEncode)

　　脚本很简单，使用也很简单

代码如下:

　　./changeEncode.py target_dir fromEncode toEncode

这里要注意下，几种常见编码的关系：

　　us-ascii编码是utf-8编码的一个子集，这个是从stackoverflow上得到的，原文如下ASCII is a subset of UTF-8, so all ASCII files are already UTF-8 encoded，

我试了下确实是的，在不加汉字的时候显示编码为us-ascii，加了汉字之后，变为utf-8。

　　还有就是ASNI编码格式，这代表是本地编码格式，比如说在简体中文操作系统下，ASNI编码就代表GBK编码，这点还需要注意

　　还有一点就是一个在linux下查看文件编码格式的命令是：

代码如下:

file -i *

　　可以看到文件的编码格式。

　　当然了，上面的可能有些文件中有特殊字符，处理的时候会失败，但一般程序文件是没有问题的。

以上就是本文所述的全部内容了，希望对大家学习python能够有所帮助。

请您花一点时间将文章分享给您的朋友或者留下评论。我们将会由衷感谢您的支持！

Python批量转换文件编码格式

自己写的方法,适用于linux, #!/usr/bin/python #coding=utf-8 import sys import os, os.path import dircache import commands def add(x,y): return x*y def trans(dirname): lis = dircache.opendir(dirname) for a in lis: af=dirname+os.sep+a ## print af if os.path.isdir
python妙用之编码的转换详解

前言记得刚入门那个时候,自己处理编码转换问题往往是"百度:url解码.base64加密.hex--",或者是使用一款叫做"小葵多功能转换工具"的软件,再后来直接上Burpsuite的decoder功能,感觉用的还挺好的.不过,也遇到些问题:在线转换效率低(搜索占去了2/3的时间).两款工具存在一些小问题,比如burp中涉及中文往往显示乱码. 直到使用python来作为我日常编码转换工具-- 开启py转换之旅 url编码 url编码是一种浏览器用来打包表单输入的格式
python中的代码编码格式转换问题

刚来这个公司,熟悉了环境,老大就开始让我做一个迁移.修改代码的工作,我想说的是,这种工作真没劲~~,看别人的代码.改别人的代码.这里改个变量.那里改个文件名······,都是些没技术含量.很繁琐的事情,不过通过迁移代码顺便熟悉下环境也好.扯了这么多,说说今天的主题吧--代码编码格式改变,由于某些原因,需要将代码从A机房迁移到B机房,这两个之间不能互相访问,但是历史原因导致A机房的代码全是utf8编码的,B机房要求是GBK编码,看看这个怎么解决. 编码问题先说说为什么会有编码问题,就拿上面那个例
python实现批量转换文件编码(批转换编码示例)

复制代码代码如下: # -*- coding:utf-8 -*-__author__ = 'walkskyer' import osimport glob class Encoding: def __init__(self): #文件扩展名 self.ext = ".*" #编码 self.srcEncoding=None self.dstEncoding=None def convertEncoding(s
python自然语言编码转换模块codecs介绍

python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理. 有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码,转换过程是这样的: 复制代码代码如下: 原有编码 -> 内部编码 -> 目的编码 python的内部是使用unicode来处理的,但是unicode的使用需要考虑的是它的编码格式有两种,一是UCS-2,它一共有65536个码位,另一种是UCS-4,它有2147483648g个码位.对于这两种格
Python编码类型转换方法详解

本文实例讲述了Python编码类型转换方法.分享给大家供大家参考,具体如下: 1:Python和unicode 为了正确处理多语言文本,Python在2.0版后引入了Unicode字符串. 2:python中的print 虽然python内部需要将文本编码转换为unicode编码来处理,而终端显示工作则由传统的Python字符串完成(实际上,Python的print语句根本无法打印出双字节的Unicode编码字符). python的print会对输出的unicode编码(对其它非unicode编
python将图片文件转换成base64编码的方法

本文实例讲述了python将图片文件转换成base64编码的方法.分享给大家供大家参考.具体实现方法如下: import base64 f=open(r'c:\jb51.gif','rb') #二进制方式打开图文件 ls_f=base64.b64encode(f.read()) #读取文件内容,转换为base64编码 f.close() 调用方法如下: 复制代码代码如下: <img src="R0lGODlh1wBOAPcAAAAAAP///7a4u+jq7bG1ucrN0N7g4tLU
python黑魔法之编码转换

我们在使用其他语言的库做编码转换时,对于无法理解的字符,通常的处理也只有两种(或三种): 抛异常替换成替代字符跳过但是在复杂的现实世界中,由于各种不靠谱,我们处理的文本总会出现那么些不和谐因素,比如混合编码.在这种情况下,又回到了上面的处理办法. 那么问题来了,python有没有更好地办法呢? 答案是,有! python的编码转换流程实际上是两段式转换: source -> unicode -> dest 首先将字符串从原始编码转换成unicode.再将unicode转换成目标编码. 第
Python实现批量转换文件编码的方法

本文实例讲述了Python实现批量转换文件编码的方法.分享给大家供大家参考.具体如下: 这里将某个目录下的所有文件从一种编码转换为另一种编码,然后保存 import os import shutil def match(config,fullpath,type): flag=False if type == 'exclude': for item in config['src']['exclude']: if fullpath.startswith(config['src']['path']+o
python实现中文转换url编码的方法

本文实例讲述了python实现中文转换url编码的方法.分享给大家供大家参考,具体如下: 今天要处理百度贴吧的东西.想要做一个关键词的list,每次需要时,直接添加到list里面就可以了.但是添加到list里面是中文的情况(比如'丽江'),url的地址编码却是'%E4%B8%BD%E6%B1%9F',因此需要做一个转换.这里我们就用到了模块urllib. >>> import urllib >>> data = '丽江' >>> print dat

python轻松实现代码编码格式转换

相关推荐

随机推荐