Python 中拼音库 PyPinyin 用法详解

2025-02-25 17:56:41

最近碰到了一个问题，项目中很多文件都是接手过来的中文命名的一些素材，结果在部署的时候文件名全都乱码了，导致项目无法正常运行。

后来请教了一位大佬怎么解决文件名乱码的问题，他说这个需要正面解决吗？不需要，把文件名全部改掉，文件名永远不要用中文，永远不要。

我想他这么说的话，一定也是凭经验得出来的。

这里也友情提示大家，项目里面文件永远不要用中文，永远不要！

好，那不用中文用啥？平时来看，一般我们都会用英文来命名，一般也不会出现中文，比如 resource, controller, result, view, spider 等等，所以绝大多数情况下，是不会出现什么问题的。但是也有个别的情况，比如一些素材、资源文件可能的中文命名的，那么这时候该咋办呢？

首先像，因为是中文资源文件，我们要改成非中文命名的，无非两种，一种是英文，一种是拼音。

如果改英文，当然可以翻译、我们想翻译的话，逐个人工翻译成本太高，机器翻译的话，翻译完可能有些文不对题了，而且我们自己也不知道一些奇怪的资源英语应该叫什么，所以到时候真的找起来都找不到了。

所以第二种解决方案，那就是拼音了。中文转拼音，很自然，而且一个字就对应一串拼音，而且也非常容易从拼音看懂是什么意思，所以这确实是一个不错的方案。

那么问题就来了，怎样把一批中文文件转拼音命名呢？下面就让我们来了解 Python 的一个库 PyPinyin 吧！

概述

Python 中提供了汉字转拼音的库，名字叫做 PyPinyin，可以用于汉字注音、排序、检索等等场合，是基于 hotto/pinyin 这个库开发的，一些站点链接如下：

GitHub: https://github.com/mozillazg/python-pinyin
文档： https://pypinyin.readthedocs.io/zh_CN/master/
PyPi： https://pypi.org/project/pypinyin/

它有这么几个特性：

根据词组智能匹配最正确的拼音。
支持多音字。
简单的繁体支持, 注音支持。
支持多种不同拼音/注音风格。

是不是等不及了呢？那就让我们来了解一下它的用法吧！

安装

首先就是这个库的安装了，通过 pip 安装即可：

pip3 install pypinyin

安装完成之后导入一下这个库，如果不报错，那就说明安装成功了。

>>> import pypinyin

好，接下来我们看下它的具体功能。

基本拼音

首先我们进行一下基本的拼音转换，方法非常简单，直接调用 pinyin 方法即可：

from pypinyin import pinyin
print(pinyin('中心'))

运行结果：

[['zhōng'], ['xīn']]

可以看到结果会是一个二维的列表，每个元素都另外成了一个列表，其中包含了每个字的读音。

那么如果这个词是多音字咋办呢？比如 “朝阳”，它有两个读音，我们拿来试下：

from pypinyin import pinyin
print(pinyin('朝阳'))

运行结果：

[['zhāo'], ['yáng']]

好吧，它只给出来了一个读音，但是如果我们想要另外一种读音咋办呢？

其实很简单，只需添加 heteronym 参数并设置为 True 就好了，我们试下：

from pypinyin import pinyin
print(pinyin('朝阳', heteronym=True))

运行结果：

[['zhāo', 'cháo'], ['yáng']]

OK 了，这下子就显示出来了两个读音了，而且我们也明白了结果为什么是一个二维列表，因为里面的一维的结果可能是多个，比如多音字的情况就是这样。

但这个多少解析起来有点麻烦，很多情况下我们是不需要管多音字的，我们只是用它来转换一下名字而已，而处理上面的二维数组又比较麻烦。

所以有没有一个方法直接给我们一个一维列表呢？有！

我们可以使用 lazy_pinyin 这个方法来生成，尝试一下：

from pypinyin import pinyin
print(pinyin('聪明的小兔子'))

运行结果：

['cong', 'ming', 'de', 'xiao', 'tu', 'zi']

这时候观察到得到的是一个列表，并且不再包含音调了。

这里我们就有一个疑问了，为啥 pinyin 方法返回的结果默认是带音调的，而 lazy_pinyin 是不带的，这里面就涉及到一个风格转换的问题了。

风格转换

我们可以对结果进行一些风格转换，比如不带声调风格、标准声调风格、声调在拼音之后、声调在韵母之后、注音风格等等，比如我们想要声调放在拼音后面，可以这么来实现：

from pypinyin import lazy_pinyin, Style

style = Style.TONE3
print(lazy_pinyin('聪明的小兔子', style=style))

运行结果：

['cong1', 'ming2', 'de', 'xiao3', 'tu4', 'zi']

可以看到运行结果每个拼音后面就多了一个声调，这就是其中的一个风格，叫做 TONE3，其实还有很多风格，下面是我从源码里面找出来的定义：

#: 普通风格，不带声调。如：中国 -> ``zhong guo``
NORMAL = 0
#: 标准声调风格，拼音声调在韵母第一个字母上（默认风格）。如：中国 -> ``zhōng guó``
TONE = 1
#: 声调风格2，即拼音声调在各个韵母之后，用数字 [1-4] 进行表示。如：中国 -> ``zho1ng guo2``
TONE2 = 2
#: 声调风格3，即拼音声调在各个拼音之后，用数字 [1-4] 进行表示。如：中国 -> ``zhong1 guo2``
TONE3 = 8
#: 声母风格，只返回各个拼音的声母部分（注：有的拼音没有声母，详见 `#27`_）。如：中国 -> ``zh g``
INITIALS = 3
#: 首字母风格，只返回拼音的首字母部分。如：中国 -> ``z g``
FIRST_LETTER = 4
#: 韵母风格，只返回各个拼音的韵母部分，不带声调。如：中国 -> ``ong uo``
FINALS = 5
#: 标准韵母风格，带声调，声调在韵母第一个字母上。如：中国 -> ``ōng uó``
FINALS_TONE = 6
#: 韵母风格2，带声调，声调在各个韵母之后，用数字 [1-4] 进行表示。如：中国 -> ``o1ng uo2``
FINALS_TONE2 = 7
#: 韵母风格3，带声调，声调在各个拼音之后，用数字 [1-4] 进行表示。如：中国 -> ``ong1 uo2``
FINALS_TONE3 = 9
#: 注音风格，带声调，阴平（第一声）不标。如：中国 -> ``ㄓㄨㄥㄍㄨㄛˊ``
BOPOMOFO = 10
#: 注音风格，仅首字母。如：中国 -> ``ㄓㄍ``
BOPOMOFO_FIRST = 11
#: 汉语拼音与俄语字母对照风格，声调在各个拼音之后，用数字 [1-4] 进行表示。如：中国 -> ``чжун1 го2``
CYRILLIC = 12
#: 汉语拼音与俄语字母对照风格，仅首字母。如：中国 -> ``ч г``
CYRILLIC_FIRST = 13

有了这些，我们就可以轻松地实现风格转换了。

好，再回到原来的问题，为什么 pinyin 的方法默认带声调，而 lazy_pinyin 方法不带声调，答案就是：它们二者使用的默认风格不同，我们看下它的函数定义就知道了：

pinyin 方法的定义如下：

def pinyin(hans, style=Style.TONE, heteronym=False, errors='default', strict=True)

lazy_pinyin 方法的定义如下：

def lazy_pinyin(hans, style=Style.NORMAL, errors='default', strict=True)

这下懂了吧，因为 pinyin 方法默认使用了 TONE 的风格，而 lazy_pinyin 方法默认使用了 NORMAL 的风格，所以就导致二者返回风格不同了。

好了，有了这两个函数的定义，我们再来研究下其他的参数，比如定义里面的 errors 和 strict 参数又怎么用呢？

错误处理

在这里我们先做一个测试，比如我们传入无法转拼音的字，比如：

from pypinyin import lazy_pinyin
print(lazy_pinyin('你好☆☆，我是xxx'))

其中包含了星号两个，还有标点一个，另外还包含了一个 xxx 英文字符，结果会是什么呢？

['ni', 'hao', '☆☆，', 'wo', 'shi', 'xxx']

可以看到结果中星号和英文字符都作为一个整体并原模原样返回了。

那么这种特殊字符可以单独进行处理吗？当然可以，这里就用到刚才提到的 errors 参数了。

errors 参数是有几种模式的：

u

下面是 errors 这个参数的源码实现逻辑：

def _handle_nopinyin_char(chars, errors='default'):
    """处理没有拼音的字符"""
    if callable_check(errors):
        return errors(chars)
 
    if errors == 'default':
        return chars
    elif errors == 'ignore':
        return None
    elif errors == 'replace':
        if len(chars) > 1:
            return ''.join(text_type('%x' % ord(x)) for x in chars)
        else:
            return text_type('%x' % ord(chars))

当处理没有拼音的字符的时候，errors 的不同参数会有不同的处理结果，更详细的逻辑可以翻看源码。

好了，下面我们来尝试一下，比如我们想将不能转拼音的字符去掉，则可以这么设置：

from pypinyin import lazy_pinyin
print(lazy_pinyin('你好☆☆，我是xxx', errors='ignore'))

运行结果：

['ni', 'hao', 'wo', 'shi']

如果我们想要自定义处理，比如把 ☆ 转化为 ※ ，则可以这么设置：

print(lazy_pinyin('你好☆☆，我是xxx', errors=lambda item: ''.join(['※' if c == '☆' else c for c in item])))

运行结果：

['ni', 'hao', '※※，', 'wo', 'shi', 'xxx']

如上便是一些相关异常处理的操作，我们可以随心所欲地处理自己想处理的字符了。

严格模式

最后再看下 strict 模式，这个参数用于控制处理声母和韵母时是否严格遵循《汉语拼音方案》标准。

下面的一些说明来源于官方文档：

当 strict 参数为 True 时根据《汉语拼音方案》的如下规则处理声母、在韵母相关风格下还原正确的韵母：

21 个声母： b p m f d t n l g k h j q x zh ch sh r z c s （ y, w 不是声母 ）
i行的韵母，前面没有声母的时候，写成yi(衣)，ya(呀)，ye(耶)，yao(腰)，you(忧)，yan(烟)， yin(因)，yang(央)，ying(英)，yong(雍)。（ y 不是声母）
u行的韵母，前面没有声母的时候，写成wu(乌)，wa(蛙)，wo(窝)，wai(歪)，wei(威)，wan(弯)， wen(温)，wang(汪)，weng(翁)。（ w 不是声母）
ü行的韵母，前面没有声母的时候，写成yu(迂)，yue(约)，yuan(冤)，yun(晕)；ü上两点省略。（韵母相关风格下还原正确的韵母 ü ）
ü行的韵跟声母j，q，x拼的时候，写成ju(居)，qu(区)，xu(虚)，ü上两点也省略；但是跟声母n，l拼的时候，仍然写成nü(女)，lü(吕)。（韵母相关风格下还原正确的韵母 ü ）
iou，uei，uen前面加声母的时候，写成iu，ui，un。例如niu(牛)，gui(归)，lun(论)。（韵母相关风格下还原正确的韵母 iou，uei，uen ）

当 strict 为 False 时就是不遵守上面的规则来处理声母和韵母，比如： y , w 会被当做声母，yu(迂) 的韵母就是一般认为的 u 等。

具体差异可以查看源码中tests/test_standard.py中的对比结果测试用例。

自定义拼音

如果对库返回的结果不满意，我们还可以自定义自己的拼音库，这里用到的方法就有 load_single_dict 和 load_phrases_dict 方法了。

比如刚才我们看到 “朝阳” 两个字的发音默认返回的是 zhao yang，我们想默认返回 chao yang，那可以这么做：

from pypinyin import lazy_pinyin, load_phrases_dict
 
print(lazy_pinyin('朝阳'))
personalized_dict = {
    '朝阳': [['cháo'], ['yáng']]
}
load_phrases_dict(personalized_dict)
print(lazy_pinyin('朝阳'))

这里我们自定义了一个词典，然后使用 load_phrases_dict 方法设置了一下就可以了。

运行结果：

['zhao', 'yang']
['chao', 'yang']

这样就可以完成自定义的设置了。

在一些项目里面我们可以自定义很多拼音库，然后加载就可以了。

另外我们还可以注册样式实现自定义，比如将某个拼音前面加上 Emoji 表情，样例：

from pypinyin.style import register
from pypinyin import lazy_pinyin
 
@register('kiss')
def kiss(pinyin, **kwargs):
    if pinyin == 'me':
        return f':kissing_heart:{pinyin}'
    return pinyin
 
print(lazy_pinyin('么么哒', style='kiss'))

运行结果：

[':kissing_heart:me', ':kissing_heart:me', 'dá']

这里我们调用 register 方法注册了一个样式 style，然后转换的时候指定即可，通过观察运行结果我们可以发现，这样我们就可以将 me 字的拼音前面加上 :kissing_heart: 这个 Emoji 表情了。

以上就是Python 中拼音库 PyPinyin 的用法的详细内容，更多关于Python拼音库 PyPinyin 的资料请关注我们其它相关文章！

状态机的概念和在Python下使用状态机的教程

什么是状态机? 关于状态机的一个极度确切的描述是它是一个有向图形,由一组节点和一组相应的转移函数组成.状态机通过响应一系列事件而"运行".每个事件都在属于"当前"节点的转移函数的控制范围内,其中函数的范围是节点的一个子集.函数返回"下一个"(也许是同一个)节点.这些节点中至少有一个必须是终态.当到达终态,状态机停止. 但一个抽象的数学描述(就像我刚给出的)并不能真正说明在什么情况下使用状态机可以解决实际编程问题.另一种策略就是将状态机定义成一种强
Python爬虫基础之selenium库的用法总结

一.selenium简介官网总的来说: selenium库主要用来做浏览器的自动化脚本库. 二.selenium基本用法 from selenium import webdriver url = 'http://www.baidu.com' # 将webdriver实例化 path = 'C:\Program Files (x86)\Python38-32\chromedriver.exe' browser = webdriver.Chrome(executable_path = path)
浅谈python中常用的excel模块库

openpyxl openpyxl是⼀个Python库,用于读取/写⼊Excel 2010 xlsx / xlsm / xltx / xltm⽂件. 它的诞⽣是因为缺少可从Python本地读取/写⼊Office Open XML格式的库. 如何安装: 使用pip安装openpyxl $ pip install openpyxl 使用效果之⼀: 比如可以直接读取表格数据后综合输出写⼊到后⾯的⼀列中 xlwings xlwings是BSD许可的Python库,可轻松从Excel调用Python,同样
python状态机transitions库详解

一.简介 transitions库 pip install transitions 状态机 state:状态节点 transition:用于从一个状态节点移动到另一个状态节点教程 https://pypi.org/project/transitions/ 二.逐步创建创建对象创建一个继承object的类Number的实体对象number,然后调用transitions.Machine()将状态机绑定到这个实体对象上. from transitions import Machine cla
教你使用Python pypinyin库实现汉字转拼音

一.前言这里我先为大家提供一个中文网站,大家可以下去更深入的学习. https://pypi.org/project/pypinyin/ pypinyin库,主要有几下几个特性: 智能匹配最正确的拼音: 支持多音字.繁体字: 支持多种不同拼音.注音风格: 该库属于第三方Python库,因此在使用之前,需要提前安装. pip install pypinyin 然后,导入该库即可. import pypinyin from pypinyin import pinyin 二.pypinyin库的使用
python 实用工具状态机transitions

说明 1. 状态机是一个非常实用的理论.在涉及到复杂的场景,建立状态机模型,能带来极大的方便.比如,网络连接.模型状态.业务逻辑. 2. 状态机并不复杂, 重要的是它的思想,能够极大减轻复杂度.使用时关键在于定义好事件和动作. 基本概念 State: 状态 Event: 事件. 事件触发状态变换 Action: 动作. event发生前或后执行的动作 transition: 变换. 状态变换 github https://github.com/pytransitions/transitio
python munch库的使用解析

字典是 Python 中基础的数据结构之一,字典的使用,可以说是非常的简单粗暴,但即便是这样一个与世无争的数据结构,仍然有很多人 "看不惯它" . 也许你并不觉得,但我相信,你看了这篇文章后,一定会和我一样,对原生字典开始有了偏见. 我举个简单的例子吧当你想访问字典中的某个 key 时,你需要使用字典特定的访问方式,而这种方式需要你键入一对中括号还有一对引号 >>> profile = dict(name="iswbm") >>
python爬虫之selenium库的安装及使用教程

第一步:python中安装selenium库和其他所有Python库一样,selenium库需要安装 pip install selenium # Windows电脑安装selenium pip3 install selenium # Mac电脑安装selenium 第二步:下载谷歌浏览器驱动并合理放置 selenium的脚本可以控制所有常见浏览器,在使用之前需要安装浏览器端的驱动注意:驱动和浏览器要版本对应推荐使用Chrome浏览器:谷歌浏览器驱动打开chrome浏览器,在网址栏中输入
简单理解Python中基于生成器的状态机

简单生成器有许多优点.生成器除了能够用更自然的方法表达一类问题的流程之外,还极大地改善了许多效率不足之处.在 Python 中,函数调用代价不菲:除其它因素外,还要花一段时间解决函数参数列表(除了其它的事情外,还要分析位置参数和缺省参数).初始化框架对象还要采取一些建立步骤(据 Tim Peters 在 comp.lang.python 上所说,有 100 多行 C 语言程序:我自己还没检查 Python 源代码呢).与此相反,恢复一个生成器就相当省力:参数已经解析完了,而且框架对象正"无所事事
Python 中拼音库 PyPinyin 用法详解

最近碰到了一个问题,项目中很多文件都是接手过来的中文命名的一些素材,结果在部署的时候文件名全都乱码了,导致项目无法正常运行. 后来请教了一位大佬怎么解决文件名乱码的问题,他说这个需要正面解决吗?不需要,把文件名全部改掉,文件名永远不要用中文,永远不要. 我想他这么说的话,一定也是凭经验得出来的. 这里也友情提示大家,项目里面文件永远不要用中文,永远不要! 好,那不用中文用啥?平时来看,一般我们都会用英文来命名,一般也不会出现中文,比如 resource, controller, result,
Python中selenium库的用法详解

selenium主要是用来做自动化测试,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题. 模拟浏览器进行网页加载,当requests,urllib无法正常获取网页内容的时候一.声明浏览器对象注意点一,Python文件名或者包名不要命名为selenium,会导致无法导入 from selenium import webdriver #webdriver可以认为是浏览器的驱动器,要驱动浏览器必须用到webdriver,支持多种浏览器,这里以Chrome为例 browser = w
Python中requests库的用法详解

目录一.requests库安装请求响应二.发送get请求 1.一个带参数的get请求: 2.响应json 3.添加头信息headers 4.添加和获取cookie信息三.发送post请求 1.一个带参数的Post请求: 2.传递JSON数据 3.文件上传四.高级应用 1.session会话维持 2.身份验证 3.代理设置 4.证书验证 5.超时时间 6.重定向与请求历史 7.其他五.异常处理六.requests库和urllib包对比 1.使用urllib.request 2.使
python爬虫---requests库的用法详解

requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下,正常则说明可以开始使用了. 基本用法: requests.get()用于请求目标网站,类型是一个HTTPresponse类型 import requests response = requests.get('http://www.baidu.com')print(response.status_c
Python 中Pickle库的使用详解

在"通过简单示例来理解什么是机器学习"这篇文章里提到了pickle库的使用,本文来做进一步的阐述. 那么为什么需要序列化和反序列化这一操作呢? 1.便于存储.序列化过程将文本信息转变为二进制数据流.这样就信息就容易存储在硬盘之中,当需要读取文件的时候,从硬盘中读取数据,然后再将其反序列化便可以得到原始的数据.在Python程序运行中得到了一些字符串.列表.字典等数据,想要长久的保存下来,方便以后使用,而不是简单的放入内存中关机断电就丢失数据.python模块大全中的Pickle模块就派
python中for in的用法详解

for in 说明:也是循环结构的一种,经常用于遍历字符串.列表,元组,字典等格式: for x in y: 循环体执行流程:x依次表示y中的一个元素,遍历完所有元素循环结束. 例1:遍历字符串 s = 'I love you more than i can say' for i in s: print(i) 例2:遍历列表 l = ['鹅鹅鹅', '曲项向天歌', '锄禾日当午', '春种一粒粟'] for i in l: print(i) # 可以获取下表,enumerate每次
Python中Selenium库使用教程详解

selenium介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转.输入.点击.下拉等,来拿到网页渲染之后的结果,可支持多种浏览器中文参考文档官网环境安装下载安装selenium pip install selenium -i https://mirrors.aliyun.com/pypi/simple/ 谷歌浏览器驱动程序下载地址:
Python的信号库Blinker用法详解

作为一个信号库,使用时候是支持一对一以及一对多的订阅模式,可以实现发送数据等,一般情况下,只要能够使用到Blinker的,一般都是应用在技术设计以及垃圾回收上等等,以上就是关于Blinker库的基本信息,具体的情况,小编将详细的为大家介绍讲解,好啦一起来了解看下吧. 安装环境: Python 3.6.4 安装方式: pip install blinker 使用实例: In [1]: from blinker import signal In [2]: a = signal('signal_tes
Python Pillow(PIL)库的用法详解

Pillow库是一个Python的第三方库. 在Python2中,PIL(Python Imaging Library)是一个非常好用的图像处理库,但PIL不支持Python3,所以有人(Alex Clark和Contributors)提供了Pillow,可以在Python3中使用. 官方文档路径:https://pillow.readthedocs.io/en/latest/ 一.安装Pillow pip install pillow Pillow库安装成功后,导包时要用PIL来导入,而不能用
Python中的装饰器用法详解

本文实例讲述了Python中的装饰器用法.分享给大家供大家参考.具体分析如下: 这里还是先由stackoverflow上面的一个问题引起吧,如果使用如下的代码: 复制代码代码如下: @makebold @makeitalic def say(): return "Hello" 打印出如下的输出: <b><i>Hello<i></b> 你会怎么做?最后给出的答案是: 复制代码代码如下: def makebold(fn):

Python 中拼音库 PyPinyin 用法详解

概述

安装

基本拼音

风格转换

错误处理

严格模式

自定义拼音

相关推荐

随机推荐