基于python的汉字转GBK码实现代码

2025-04-22 16:26:20

如图，“广”的编码为%B9%E3，暂且把%B9称为节编码，%E3为字符编码（第二编码）。

思路：
从GBK编码页面收集汉字 http://ff.163.com/newflyff/gbk-list/
从实用角度下手，只选取“● GBK/2: GB2312 汉字”这一节，共3755个汉字。
看规律：小节编码从B0-D7，而针对汉字的编码从A1-FE，即16*6-2=94，非常有规律性。
第一步：把常用的汉字用python提取出来，按顺序存到一个字典文件里面，汉字用空格分隔。
第二步：根据编码从A1-FE，每节94个汉字的规律，先定位节编码，利用汉字在某一节的位置定位字符编码

实施：
第一步：提取汉字

代码如下:

with open('E:/GBK.txt') as f:
s=f.read().splitlines().split()

分割得到的list里面有重复的节编码，要去掉B0/B1……类似的符号和中文的0-9/A-F字符
把获取到的字符解码看：

删除掉这些字符：
先把分割得到的list全部解码，然后

代码如下:

gbk.remove(u'\uff10')

这里删除字符的时候，用range生成一系列字符串，然后用notepad++处理了一下，并没有找到简单的办法

代码如下:

for t in [u'\uff10',u'\uff11',u'\uff12',u'\uff13',u'\uff14',u'\uff15',u'\uff16',u'\uff17',u'\uff18',u'\uff19',u'\uff21',u'\uff22',u'\uff23',u'\uff24',u'\uff25',u'\uff26']:
gbk.remove(t)

然后去除B0-D7这样的小节编码，同时提取字符编码的时候也要用到类似的A1-FE这样的编码，于是就想生成这样一个list，方便做删除和索引操作。

生成编码系列：
行编码为0-9 A-F，列编码为A-F
从A1开始递增，遇到边界（A9-AA）要手动处理，用到了ord()和chr()函数，在ASCII编码和数字之间转换。

代码如下:

t=['A1']
while True:
if t[-1]=='FE':
break
if (ord(t[-1][1])>=48 and ord(t[-1][1])<57) or (ord(t[-1][1])>=65 and ord(t[-1][1])<70):
t.append(t[-1][0]+chr(ord(t[-1][1])+1))
continue
if ord(t[-1][1])>=57 and ord(t[-1][1])<65:
t.append(t[-1][0]+chr(65))
continue
if ord(t[-1][1])>=70:
t.append(chr(ord(t[-1][0])+1)+chr(48))
continue

得到的列表：

有了这个编码序列后，就可以从gbk库中删除B0-D7字符了。
最后检查到还有空格未删除，空格的unicode码是\u3000
gbk.remove(u'\u3000')
最后encode成UTF-8编码保存到字典文件。

我把这个字典文件放到网盘上了，外链：http://dl.dbank.com/c0m9selr6h

第二步：索引汉字

索引就是个简单算法，因为字典里面的汉子是按照原先顺序存储的，而且GBK编码表2的3755个汉字严格遵守每节94个汉字的规律，那就来个简单的除数取整+1来定位小节编码，再用汉字索引-节索引*94得到汉字在这一小节中的索引，然后利用上面生成的A1-FE list和索引来定位第二编码。
算法思路有了，编码，然后调试
附上python代码和注释：

代码如下:

def getGBKCode(gbkFile='E:/GBK1.1.txt',s=''):
#gbkFile字典文件共3755个汉字
#s为要转换的汉字，暂且为gb2312编码，即从IDLE输入的汉字编码

#读入字典
with open(gbkFile) as f:
gbk=f.read().split()

#生成A1-FE的索引编码
t=['A1']
while True:
if t[-1]=='FE':
break
if (ord(t[-1][1])>=48 and ord(t[-1][1])<57) or (ord(t[-1][1])>=65 and ord(t[-1][1])<70):
t.append(t[-1][0]+chr(ord(t[-1][1])+1))
continue
if ord(t[-1][1])>=57 and ord(t[-1][1])<65:
t.append(t[-1][0]+chr(65))
continue
if ord(t[-1][1])>=70:
t.append(chr(ord(t[-1][0])+1)+chr(48))
continue
#依次索引每个汉字
l=list()
for st in s.decode('gb2312'):
st=st.encode('utf-8')
i=gbk.index(st)+1
#小节编码从B0开始，获取汉字的小节编码
t1='%'+t[t.index('B0'):][i/94]
#汉字在节点中的索引号
i=i-(i/94)*94
t2='%'+t[i-1]
l.append(t1+t2)
#最后用空格分隔输出
return ' '.join(l)

得承认我的python代码不是那么工整
附上我的微博ID：小栾Cooper

python用字典统计单词或汉字词个数示例

有如下格式的文本文件复制代码代码如下: /"/请/!/"/"/请/!/"/两名/剑士/各自/倒转/剑尖/,/右手/握/剑柄/,/左手/搭于/右手/手背/,/躬身行礼/./两/人/身子/尚未/站/直/,/突然/间/白光闪/动/,/跟着/铮的/一/声响/,/双剑相/交/,/两/人/各/退一步/./旁/观众/人/都/是/"/咦/"/的/一声/轻呼/./青衣/剑士/连/劈/三/剑/ 将这段话进行词频统计,结果是词-词数的形式,比如请 2
python实现统计汉字／英文单词数的正则表达式

思路 •使用正则式 "(?x) (?: [\w-]+ | [\x80-\xff]{3} )"获得utf-8文档中的英文单词和汉字的列表. •使用dictionary来记录每个单词/汉字出现的频率,如果出现过则+1,如果没出现则置1. •将dictionary按照value排序,输出. 源码复制代码代码如下: #!/usr/bin/python # -*- coding: utf-8 -*- # #author: rex #blog: http://iregex.org #filen
Python基于有道实现英汉字典功能

本文实例讲述了Python基于有道实现英汉字典功能的方法.分享给大家供大家参考.具体如下: import re,urllib aa="http://dict.youdao.com/search?tab=chn&keyfrom=dict.top&q=" print ("input q! to exit ") while 1: word=raw_input(">>>") if word=="q!"
python使用reportlab画图示例（含中文汉字）

准备工作开发环境:python2.6,reportlab 准备中文字体文件:simsun.ttc 代码: 复制代码代码如下: #!/usr/bin/env python2.6#coding:utf-8 import traceback from reportlab.graphics.shapes import Drawingfrom reportlab.graphics.charts.lineplots import LinePlotfrom reportlab.graphics.chart
python实现将汉字转换成汉语拼音的库

本文实例讲述了python实现将汉字转换成汉语拼音的库.分享给大家供大家参考.具体分析如下: 下面的这个python库可以很容易的将汉字转换成拼音,其中用到了一个word.data 的字典,可点击此处本站下载. #!/usr/bin/env python # -*- coding:utf-8 -*- __version__ = '0.9' __all__ = ["PinYin"] import os.path class PinYin(object): def __init__(sel
Python 返回汉字的汉语拼音

后来想到自己Delphi有一个获得拼音的代码.于是找了出来.研究了一下代码如下: 复制代码代码如下: function get_hz_pywb(hzstr: string; pytype: integer): string; var I: Integer; allstr: string; hh: THandle; pp: pointer; ss: TStringList; function retturn_wbpy(tempstr: string; tqtype: integer): stri
Python找出文件中使用率最高的汉字实例详解

本文实例讲述了Python找出文件中使用率最高的汉字的方法.分享给大家供大家参考.具体分析如下: 这是我初学Python时写的,为了简便,我并没在排序完后再去掉非中文字符,稍微会影响性能(大约增加了25%的时间). # -*- coding: gbk -*- import codecs from time import time from operator import itemgetter def top_words(filename, size=10, encoding='gbk'): co
python获取一组汉字拼音首字母的方法

本文实例讲述了python获取一组汉字拼音首字母的方法.分享给大家供大家参考.具体实现方法如下: #!/usr/bin/env python # -*- coding: utf-8 -*- def multi_get_letter(str_input): if isinstance(str_input, unicode): unicode_str = str_input else: try: unicode_str = str_input.decode('utf8') except: try:
Python输出汉字字库及将文字转换为图片的方法

用python输出汉字字库问题1:假设我们知道汉字编码范围是0x4E00到0x9FA5,怎么从十六进制的编码转成人类可读的字呢? 问题2:怎么把unicode编码的字写入文件呢,如果直接用open()的话,会提示UnicodeEncodeError: 'ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128) 问题1的答案是用unichr,问题2的答案是用codecs. 下面上代
基于python的汉字转GBK码实现代码

如图,"广"的编码为%B9%E3,暂且把%B9称为节编码,%E3为字符编码(第二编码). 思路: 从GBK编码页面收集汉字 http://ff.163.com/newflyff/gbk-list/ 从实用角度下手,只选取"● GBK/2: GB2312 汉字"这一节,共3755个汉字. 看规律:小节编码从B0-D7,而针对汉字的编码从A1-FE,即16*6-2=94,非常有规律性. 第一步:把常用的汉字用python提取出来,按顺序存到一个字典文件里面,汉字用空格分
基于Python实现在线二维码生成工具

目录 1.环境搭建 2.二维码生成功能的封装 3.网页应用的搭建在今天的教程中,费老师我将为大家展示如何通过纯Python编程的方式,开发出一个网页应用,从而帮助用户直接通过浏览器访问,即可基于输入的网址等文字内容,完成常规二维码.静态底图二维码以及动图底图二维码的快捷生成,先来看一看应用的主要功能操作演示: 只写Python开发这样精致的工具应用非常简单,下面我来带大家从搭建环境开始,学习整个过程: 1.环境搭建首先我们来创建应用的虚拟开发环境,建议使用Conda,命令如下: 创建虚拟环境
基于Python编写一个点名器的示例代码

目录前言主界面添加姓名查看花名册使用指南名字转动功能完整代码前言想起小学的时候老师想点名找小伙伴回答问题的时候,老师竟斥巨资买了个点名器.今日无聊便敲了敲小时候老师斥巨资买的点名器. 本人姓白,就取名小白点名器啦,嘿嘿代码包含:添加姓名.查看花名册.使用指南.随机抽取名字的功能(完整源码在最后) 主界面定义主界面.使用“w+”模式创建test.txt文件(我添加了个背景图片,若不需要可省略) #打开时预加载储存在test.txt文件中的花名册 namelist = [] w
基于Python socket的端口扫描程序实例代码

本文研究的主要是Python的端口扫描程序,具体实例代码如下. 先来看看第一个端口扫描程序代码,获取本机的IP和端口号: import socket def get_my_ip(): try: csock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) csock.connect(('8.8.8.8', 80)) (addr, port) = csock.getsockname() csock.close() return addr,port
基于Python编写微信清理工具的示例代码

目录主要功能运行环境核心代码完整代码前几天网上找了一款 PC 端微信自动清理工具,用了一下,电脑释放了 30GB 的存储空间,而且不会删除文字的聊天记录,很好用,感觉很多人都用得到,就在此分享一下,而且是用 Python 写的,喜欢 Python 的小伙伴可以探究一下. 主要功能它可以自动删除 PC 端微信自动下载的大量文件.视频.图片等数据内容,释放几十 G 的空间占用,而且不会删除文字的聊天记录,可以放心使用. 工作以后,微信的群聊实在太多了,动不动就被拉入一个群中,然后群聊里大
基于Python制作AI聊天软件的示例代码

目录效果图需要用到的库窗体设计函数为粉丝们额外添加的功能完整代码效果图先看一下效果图就当是女友无聊的时候自己抽不出时间的小分身吧! 需要用到的库 tkinter.time.urllib.requests tkinter负责窗体.time显示时间.urllib和requests负责请求窗体设计 from tkinter import * win1 = Tk() win1.geometry('400x644+100+100') win1.title('xxx男神的AI分身') L
基于Python实现24点游戏的示例代码

目录 1.前言 2.思路 3.代码 1.前言 24数大家之前玩过没有? 规则:一副扑克牌抽走大王,小王,K,Q,J(有的规则里面会抽走10,本文一律不抽走),之后在牌堆里随机抽取四张牌,将这四张牌加减乘除得到24. 如果再高级一点,还会有根号.阶乘.幂之类的算法,别问为啥不能幂运算,问就是懒,自己看思路自己实现去(bushi. 知识点:随机数,列表,嵌套判断,循环,死循环,都是新手接触的东西. 由于不能进行像根号,阶乘高级的运算,改版之后完全可以了. 话不多说,上思路 2.思路 1.随机生成四个
基于Python实现成语填空游戏的示例代码

目录前言一.环境准备二.代码展示三.效果展示前言成语填空想必大家都是十分熟悉的了,特别是有在上小学的家长肯定都有十分深刻的印象. 在我们的认知里看图猜成语不就是一些小儿科的东西吗? 当然了你也别小看了成语调控小游戏,有的时候知识储备不够,你还真的不一定猜得出来是什么?更重要的是有的时候给你这个提示你都看不懂,那你就拿他没办法.——小学语文必备成语是小学语文非常重要的一个知识点,几乎是逢考必有,作为基础,自然是需要长期的积累,并且需要积累到一定的数量,有了一定的量才能够产生质变,对于
基于Python实现随机点名系统的示例代码

目录效果展示代码展示导入模块子线程调用应用初始化信息姓名信息布局开始信息布局数据信息布局整体布局运行大家好,我是了不起! 在某些难以抉择得时候,我们经常要用外力来帮助我们做出选择比如,梁山出征方腊前沙场点兵,挑选先锋的场景这个时候,有一个随机点名系统就非常好啦,毕竟我水泊梁山的名号~ 效果展示创建一个这样的文件夹,然后把要随机点名的名字写在里面导入后,这里就显示你导入了多少人员信息点击开始点名后,会随机从导入名字里挑选一位幸运儿~ 效果大概就是这样,下面我们来看看
基于Python的XML格式的文件示例代码详解

XML文件是可拓展标记语言,是一种简单的数据存储语言,被设计用来传输和存储数据在Python中XML的一些方法读取文件和内容 #引用xml模块 from xml.etree import ElementTree as ET # ET去打开xml文件 tree = ET.parse("files/xo.xml") # 获取根标签 root = tree.getroot() print(root) # <Element 'data' at 0x7f94e02763b0> f

基于python的汉字转GBK码实现代码

相关推荐

随机推荐