学习python处理python编码问题

2025-04-04 11:29:40

概括、从python1.6开始就可以处理unicode字符了。
一、几种常见的编码格式。
1.1、ascii，用1个字节表示。
1.2、UTF-8,用1个至三个字节表示，表示ascii码时只占用1个字节，ascii编码是UTF-8的子集。
1.3、UTF-16,用2个字节表示，在python中，unicode的含义就是UTF-16。
二、python源文件的编码与解码，我们写的python程序从产生到执行的过程如下：
编辑器---->源代码---->解释器---->输出结果
2.1、编辑器决定源代码的编码格式（在编辑器中设定）
2.2、也必须要解释器知道源代码的编码格式（很遗憾很难从编码的数据获知源文件的编码格式）
2.3、补充：在Windows下当用UltraEdit把源代码存成UTF-8时，会在文件中记录BOM标志（不必祥究）这样ActivePython解释器会自动识别源文件是UTF-8格式，但是如果用eclipse编辑源文件，虽然在编辑器中指定文件编码为UTF-8,但是因为没有记入BOM标志，所以必须在源文件开始处加上#coding=utf-8，用注释来提示解释器源文件的编码方式挺有意思。
2.4、举例：例如我们要向终端输出"我是中国人"。

代码如下:

#coding=utf-8 告诉python解释器用的是utf-8编码，我用的是eclipse+pydev
print "我是中国人" #源文件本身也要存成UTF-8编码

三、编码的转换，两种编码的转换要用UTF-16作为中转站。
举例：如果有一个文本文件jap.txt,里面有内容 "私は中国人です。"，编码格式是日文编码SHIFT_JIS，
还有一个文本文件chn.txt,内容是"中华人民共和国"，编码格式是中文编码GB2312。
我们如何把两个文件里的内容合并到一起并存储到utf.txt中并且不显示乱码呢，可以采用把两个文件的内容都转成UTF-8格式，因为UTF-8里包含了中文编码和日文编码。

代码如下:

#coding=utf-8
try:
JAP=open("e:/jap.txt","r")
CHN=open("e:/chn.txt","r")
UTF=open("e:/utf.txt","w")
jap_text=JAP.readline()
chn_text=CHN.readline()
#先decode成UTF-16,再encode成UTF-8
jap_text_utf8=jap_text.decode("SHIFT_JIS").encode("UTF-8") #不转成utf-8也可以
chn_text_utf8=chn_text.decode("GB2312").encode("UTF-8")#编码方式大小写都行utf-8也一样
UTF.write(jap_text_utf8)
UTF.write(chn_text_utf8)
except IOError,e:
print "open file error",e

四、Tk库支持ascii,UTF-16,UTF-8

代码如下:

#coding=utf-8
from Tkinter import *
try:
JAP=open("e:/jap.txt","r")
str1=JAP.readline()
except IOError,e:
print "open file error",e
root=Tk()
label1=Label(root,text=str1.decode("SHIFT_JIS")) #如果没有decode则显示乱码
label1.grid()
root.mainloop()

以上是学习python处理python编码的基本过程，希望对大家有帮助。

Python中的字符串操作和编码Unicode详解

本文主要给大家介绍了关于 Python中的字符串操作和编码Unicode的一些知识,下面话不多说,需要的朋友们下面来一起学习吧. 字符串类型 str:Unicode字符串.采用''或者r''构造的字符串均为str,单引号可以用双引号或者三引号来代替.无论用哪种方式进行制定,在Python内部存储时没有区别. bytes:二进制字符串.由于jpg等其他格式的文件不能用str进行显示,所以才用bytes来表示,bytes的每个字节为一个0-255的数字.如果打印的时候,Python会把能够用ASCI
在Python中操作字符串之startswith()方法的使用

startswith()方法检查字符串是否以str开始,任选限制匹配与给定索引的开始和结束. 语法以下是startswith()方法的语法: str.startswith(str, beg=0,end=len(string)); 参数 str -- 这是要检查的字符串. beg -- 这是可选的参数设置匹配边界的初始索引. end -- 这是可选的参数设置匹配边界的结束索引. 返回值如果找到匹配的字符串此方法返回true,否则为false. 例子下面的例子显示了startswith()方法
Python列表(list)、字典(dict)、字符串(string)基本操作小结

创建列表复制代码代码如下: sample_list = ['a',1,('a','b')] Python 列表操作复制代码代码如下: sample_list = ['a','b',0,1,3] 得到列表中的某一个值复制代码代码如下: value_start = sample_list[0] end_value = sample_list[-1] 删除列表的第一个值复制代码代码如下: del sample_list[0] 在列表中插入一个值复制代码代码如下: sample_li
python使用chardet判断字符串编码的方法

本文实例讲述了python使用chardet判断字符串编码的方法.分享给大家供大家参考.具体分析如下: 最近利用python抓取一些网上的数据,遇到了编码的问题.非常头痛,总结一下用到的解决方案. linux中vim下查看文件编码的命令 set fileencoding python中一个强力的编码检测包 chardet ,使用方法非常简单.linux下利用pip install chardet实现简单安装 import chardet f = open('file','r') fencodin
跟老齐学Python之坑爹的字符编码

字符编码,在编程中,是一个让学习者比较郁闷的东西,比如一个str,如果都是英文,好说多了.但恰恰不是如此,中文是我们不得不用的.所以,哪怕是初学者,都要了解并能够解决字符编码问题. >>> name = '老齐' >>> name '\xe8\x80\x81\xe9\xbd\x90' 在你的编程中,你遇到过上面的情形吗?认识最下面一行打印出来的东西吗?看人家英文,就好多了 >>> name = "qiwsir" >>&g
在Python中操作字符串之replace()方法的使用

replace()方法返回当前old换成new,可选择的替代限制到最大数量的字符串的副本. 语法以下是replace()方法的语法: str.replace(old, new[, max]) 参数 old -- 这是要进行更换的旧子串. new -- 这是新的子串,将取代旧的子字符串. max -- 如果这个可选参数max值给出,仅第一计数出现被替换. 返回值此方法返回字符串的拷贝与旧子串出现的所有被新的所取代.如果可选参数最大值给定,只有第一个计数发生替换. 例子下面的示例演示了repl
Python 字符串操作方法大全

1.去空格及特殊符号复制代码代码如下: s.strip().lstrip().rstrip(',') 2.复制字符串复制代码代码如下: #strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sStr2 3.连接字符串复制代码代码如下: #strcat(sStr1,sStr2)sStr1 = 'strcat'sStr2 = 'append'sStr1 += sStr2print sStr1 4.查
Python字符串切片操作知识详解

一:取字符串中第几个字符 print "Hello"[0] 表示输出字符串中第一个字符 print "Hello"[-1] 表示输出字符串中最后一个字符二:字符串分割 print "Hello"[1:3] #第一个参数表示原来字符串中的下表 #第二个阐述表示分割后剩下的字符串的第一个字符在原来字符串中的下标这句话说得有点啰嗦,直接看输出结果: el 三:几种特殊情况 (1)print "Hello"[:3] 从第一个字
Python中常用操作字符串的函数与方法总结

例如这样一个字符串 Python,它就是几个字符:P,y,t,h,o,n,排列起来.这种排列是非常严格的,不仅仅是字符本身,而且还有顺序,换言之,如果某个字符换了,就编程一个新字符串了:如果这些字符顺序发生变化了,也成为了一个新字符串. 在 Python 中,把像字符串这样的对象类型(后面还会冒出来类似的其它有这种特点的对象类型,比如列表),统称为序列.顾名思义,序列就是"有序排列". 比如水泊梁山的 108 个好汉(里面分明也有女的,难道女汉子是从这里来的吗?),就是一个"
Python 字符串操作实现代码(截取/替换/查找/分割)

Python 截取字符串使用变量[头下标:尾下标],就可以截取相应的字符串,其中下标是从0开始算起,可以是正数或负数,下标可以为空表示取到头或尾. 复制代码代码如下: # 例1:字符串截取str = '12345678'print str[0:1]>> 1 # 输出str位置0开始到位置1以前的字符print str[1:6] >> 23456 # 输出str位置1开始到位置6以前的字符num = 18str = '0000' + str(num) # 合并字符串pr

学习python处理python编码问题

相关推荐

随机推荐