python中jieba模块的深入了解

2025-02-22 22:20:43

一、前言

英语单词之间是通过空格分隔的，但是中文却不存在空格的概念，因此需要一个模块来解决中文的分词问题。jieba模块是一个python第三方中文分词模块，可以用于将语句中的中文词语分离出来。

此外，全国计算机等级考试二级python语言程序设计也涉及到该模块的相关知识。因此大家可以好好了解下该模块。

二、模块的安装

jieba模块作为python的一个第三方模块，是需要我们自行下载安装后才能使用的，我们主要采用pip安装工具进行jieba的安装，具体步骤如下：

在windows操作系统中，快捷键win+R，

然后输入cmd，点击确定，打开

输入：

pip install jieba

即可安装成功。

三、jieba模块具体讲解

3.1分词模式

jieba模块支持三种分词模式：全模式、精准模式以及搜索引擎模式。

①全模式：全模式可以将句子中所有可能的词语全部提取出来，该模式提取速度快，但可能会出现冗余词汇。

如图，第一行出现了冗余词汇，其采用的就是全模式，而第二行采用精准模式。

②精准模式：精准模式通过优化的智能算法将语句精准的分隔，适用于文本分析。

③搜索引擎模式：搜索引擎模式在精准模式的基础上对词语进行再次划分，提高召回率，适用于搜索引擎分词。

3.2cut()、lcut()

3.2.1cut(sentence, cut_all=False, HMM=True, use_paddle=False)

参数解析：

sentence：要分割的str(unicode)。

cut_all：模型类型。True 表示全模式，False 表示精准模式。其默认为精准模式。

HMM：是否使用隐马尔可夫模型。

函数功能：

The main function that segments an entire sentence that contains Chinese characters into separated words.

将包含汉字的整个句子分割成单独的单词的主要功能。

import jieba
sentence = 'python是世界上最好的编程语言'
ls = jieba.cut(sentence, cut_all=False)
print(ls)
# <generator object Tokenizer.cut at 0x000001966B14EA98>

print(type(ls))
# <class 'generator'>

如图，其是迭代器类型，可以用以下三种方式显示结果

①' '.join()

# ①''.join
ls_1 = ' '.join(ls)
print(ls_1)
# python 是 世界 上 最好 的 编程 编程语言 语言

②for循环遍历

# ②for循环遍历
for i in ls:
    print(i)
'''
python
是
世界
上
最好
的
编程语言
'''

③列表推导式

# ③列表推导式
ls_2 = [i for i in ls]
print(ls_2)
# ['python', '是', '世界', '上', '最好', '的', '编程语言']

3.2.2lcut(sentence,cut_all=False)

    def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

查看jieba模块，其定义lcut()函数如上，可以发现lcut()函数最终返回的是list(cut())

import jieba
sentence = 'python是世界上最好的编程语言'
ls = jieba.cut(sentence, cut_all=False)
print(ls)
print(list(ls))
ls1 = jieba.lcut(sentence, cut_all=True)
print(ls1)
ls2 = jieba.lcut(sentence)
print(ls2)

结果如下：

注意：cut_all=False是精准模式，也是其默认的类型。

3.3cut_for_search()、lcut_for_search()

cut_for_search(sentence, HMM=True)和lcut_for_search(sentence, HMM=True)和上面所讲的类似。其都是对搜索引擎进行更精细的细分，即采用搜索引擎模式。

import jieba
sentence = 'python是世界上最好的编程语言'
ls3 = jieba.cut_for_search(sentence)
print(ls3)
# <generator object Tokenizer.cut_for_search at 0x00000199C7A3D9A8>
print(list(ls3))
# ['python', '是', '世界', '上', '最好', '的', '编程', '语言', '编程语言']
ls4 = jieba.lcut_for_search(sentence)
print(ls4)
# ['python', '是', '世界', '上', '最好', '的', '编程', '语言', '编程语言']

3.4add_word(self, word, freq=None, tag=None)

Add a word to dictionary.
freq and tag can be omitted, freq defaults to be a calculated value that ensures the word can be cut out.

函数功能：在字典中添加一个单词。
参数解析：freq 和 tag 可以省略，freq 默认是一个计算值，保证单词可以被切掉。

import jieba
sentence = 'python是世界上最好的编程语言'
ls2 = jieba.lcut(sentence)
print(ls2)
ls5 = jieba.add_word('最好的')
ls6 = jieba.lcut(sentence)
print(ls6)

结果如上，最终最好的就没有被切掉。

3.5del_word(word)

函数功能：分词词典中删除词word

import jieba
sentence = 'python是世界上最好的编程语言'
ls2 = jieba.lcut(sentence)
print(ls2)
ls7 = jieba.del_word('世界')
ls8 = jieba.lcut(sentence)
print(ls8)

不过经过笔者更改word，发现word是编程语言时，最后就分割成了编程和语言；当word是编程时，结果没变化；当word是python时，结果也没变化。因此有些需要笔者自己去尝试。

3.6suggest_freq(segment, tune=False)

 """
        Suggest word frequency to force the characters in a word to be
        joined or splitted.
        Parameter:
            - segment : The segments that the word is expected to be cut into,
                        If the word should be treated as a whole, use a str.
            - tune : If True, tune the word frequency.
        Note that HMM may affect the final result. If the result doesn't change,
        set HMM=False.
        """

函数功能：建议词频，强制将单词中的字符合并或拆分。
参数解析：
- segment ：该单词预期被切割成的片段，如果该单词应该被视为一个整体，则使用str。
- tune : 如果为True，则调整词频。

注意：HMM可能会影响最终结果。如果结果不变，设置HMM=False。

3.7tokenize(unicode_sentence, mode="default", HMM=True)

  """
        Tokenize a sentence and yields tuples of (word, start, end)
        Parameter:
            - sentence: the str(unicode) to be segmented.
            - mode: "default" or "search", "search" is for finer segmentation.
            - HMM: whether to use the Hidden Markov Model.
        """

函数功能：标记一个句子并产生 (word, start, end) 的元组
参数解析：
- unicode_sentence：要分割的 str(unicode)。
- 模式："default" or "search", "search" is for finer segmentation. “默认”或“搜索”，“搜索”用于更精细的分割。
- HMM: 是否使用隐马尔可夫模型。

四、所需代码展示

# -*- coding: utf-8-*-
import jieba
sentence = 'python是世界上最好的编程语言'
ls = jieba.cut(sentence, cut_all=False)
# print(ls)
# print(list(ls))
# # <generator object Tokenizer.cut at 0x0000019F5E44DA98>
# print(type(ls))
# # <class 'generator'>

# # ①''.join
# ls_1 = ' '.join(ls)
# print(ls_1)
# # python 是 世界 上 最好 的 编程语言
# ②for循环遍历
# for i in ls:
#     print(i)
# '''
# python
# 是
# 世界
# 上
# 最好
# 的
# 编程语言
# '''
# # ③列表推导式
# ls_2 = [i for i in ls]
# print(ls_2)
# # ['python', '是', '世界', '上', '最好', '的', '编程语言']
# ls1 = jieba.lcut(sentence, cut_all=True)
# print(ls1)
ls2 = jieba.lcut(sentence)
print(ls2)

# ls3 = jieba.cut_for_search(sentence)
# print(ls3)
# # <generator object Tokenizer.cut_for_search at 0x00000199C7A3D9A8>
# print(list(ls3))
# # ['python', '是', '世界', '上', '最好', '的', '编程', '语言', '编程语言']
# ls4 = jieba.lcut_for_search(sentence)
# print(ls4)
# ['python', '是', '世界', '上', '最好', '的', '编程', '语言', '编程语言']

# ls5 = jieba.load_userdict('文案.txt')
# ls6 = jieba.lcut(sentence)
# print(ls6)
# ls5 = jieba.add_word('最好的')
# ls6 = jieba.lcut(sentence)
# print(ls6)
ls7 = jieba.del_word('世界')
ls8 = jieba.lcut(sentence)
print(ls8)

需要的可以自行复制

五、总结

①全国计算机等级考试二级python语言程序设计中涉及到的内容一般只是分词模式、lcut()、lcut_for_search()和add_word()这几方面知识；
②笔者所写的不是特别详细，要是之后有好的案例或者其他方式，会进行添加以及完善3.6，3.7的内容；
③该模块的理解与使用不是特别难，希望大家自己动手试试，找几个案例，敲敲代码！！

到此这篇关于python中jieba模块的深入了解的文章就介绍到这了,更多相关python jieba 内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python jieba结巴分词原理及用法解析

1.简要说明结巴分词支持三种分词模式,支持繁体字,支持自定义词典 2.三种分词模式全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下搜索引擎模式:在精简模式下,对长词再度切分 # -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京天安门广场跳舞' a = jieba.lcut(str1,
python 利用jieba.analyse进行关键词提取

1.简单应用代码如下: #!/usr/bin/env python # -*- coding: utf-8 -*- # @File : jieba.analyse.py # @Author: 赵路仓 # @Date : 2020/3/14 # @Desc : 提取关键字 # @Contact : 398333404@qq.com import jieba.analyse text='安全.防止水合物和段塞生成的重要措施之一.因此,针对未来还上油田开发技术,我们预先开展了水深1500米管道式油气
Python中文分词库jieba(结巴分词)详细使用介绍

一,jieba的介绍 jieba 是目前表现较为不错的 Python 中文分词组件,它主要有以下特性: 支持四种分词模式: 精确模式全模式搜索引擎模式 paddle模式支持繁体分词支持自定义词典 MIT 授权协议二,安装和使用 1,安装 pip3 install jieba 2,使用 import jieba 三,主要分词功能 1,jieba.cut 和jieba.lcut lcut 将返回的对象转化为list对象返回传入参数解析: def cut(self, sentence, c
浅谈python jieba分词模块的基本用法

jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 特点支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词. 支持繁体分词支持自定义词典 MIT 授权协议安装jieba pip install jieba 简单用法结巴分词分为三种模式:精确模式(默认).全模式和搜索引擎
Python基于wordcloud及jieba实现中国地图词云图

热词图很酷炫,也非常适合热点事件,抓住重点,以图文结合的方式表现出来,很有冲击力.下面这段代码是制作热词图的,用到了以下技术: jieba,把文本分词 wordcloud,制作热图 chardet,辨别文件的编码格式,其中中文统一为GB18030,更加的兼容 imageio,提取图片的形状其他:自动识别文件编码,自动识别txt文件,图片文件名与txt文件一致,使用的是四大名著的文本(自行百度),部分中国地图上代码: import os import jieba import wordclou
Python jieba 中文分词与词频统计的操作

我就废话不多说了,大家还是直接看代码吧~ #! python3 # -*- coding: utf-8 -*- import os, codecs import jieba from collections import Counter def get_words(txt): seg_list = jieba.cut(txt) c = Counter() for x in seg_list: if len(x)>1 and x != '\r\n': c[x] += 1 print('常用词频度统
Python中jieba库的使用方法

目录一.jieba库的安装二.jieba三种模式的使用三.jieba 分词简单应用四.扩展:英文单词统计 jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据搜索引擎模式:在精确模式的基础上,对长词再次进行切分一.jieba库的安装因为 jieba 是一个
python中jieba模块的深入了解

目录一.前言二.模块的安装三.jieba模块具体讲解 3.1分词模式 3.2cut().lcut() 3.2.1cut(sentence, cut_all=False, HMM=True, use_paddle=False) 3.2.2lcut(sentence,cut_all=False) 3.3cut_for_search().lcut_for_search() 3.4add_word(self, word, freq=None, tag=None) 3.5del_word(word)
python中pygame模块用法实例

本文实例讲述了python中pygame模块用法,分享给大家供大家参考.具体方法如下: import pygame, sys from pygame.locals import * #set up pygame pygame.init() windowSurface = pygame.display.set_mode((500, 400), 0, 32) pygame.display.set_caption("hello, world") BLACK = (0, 0, 0) WHITE
python中string模块各属性以及函数的用法介绍

任何语言都离不开字符,那就会涉及对字符的操作,尤其是脚本语言更是频繁,不管是生产环境还是面试考验都要面对字符串的操作. python的字符串操作通过2部分的方法函数基本上就可以解决所有的字符串操作需求: • python的字符串属性函数 • python的string模块 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1.字符串属性函数系统版本:CentOS release 6.2 (Final)2.6.32-220.
Python中itertools模块用法详解

本文实例讲述了Python中itertools模块用法,分享给大家供大家参考.具体分析如下: 一般来说,itertools模块包含创建有效迭代器的函数,可以用各种方式对数据进行循环操作,此模块中的所有函数返回的迭代器都可以与for循环语句以及其他包含迭代器(如生成器和生成器表达式)的函数联合使用. chain(iter1, iter2, ..., iterN): 给出一组迭代器(iter1, iter2, ..., iterN),此函数创建一个新迭代器来将所有的迭代器链接起来,返回的迭代器从it
Python中optionParser模块的使用方法实例教程

本文以实例形式较为详尽的讲述了Python中optionParser模块的使用方法,对于深入学习Python有很好的借鉴价值.分享给大家供大家参考之用.具体分析如下: 一般来说,Python中有两个内建的模块用于处理命令行参数: 一个是 getopt,<Deep in python>一书中也有提到,只能简单处理命令行参数: 另一个是 optparse,它功能强大,而且易于使用,可以方便地生成标准的.符合Unix/Posix 规范的命令行说明. 示例如下: from optparse impo
python中urllib模块用法实例详解

本文实例讲述了python中urllib模块用法.分享给大家供大家参考.具体分析如下: 一.问题: 近期公司项目的需求是根据客户提供的api,我们定时去获取数据, 之前的方案是用php收集任务存入到redis队列,然后在linux下做一个常驻进程跑某一个php文件, 该php文件就一个无限循环,判断redis队列,有就执行,没有就break. 二.解决方法: 最近刚好学了一下python, python的urllib模块或许比php的curl更快,而且简单. 贴一下代码复制代码代码如下: #
python中hashlib模块用法示例

我们以前介绍过一篇Python加密的文章:Python 加密的实例详解.今天我们看看python中hashlib模块用法示例,具体如下. hashlib hashlib主要提供字符加密功能,将md5和sha模块整合到了一起,支持md5,sha1, sha224, sha256, sha384, sha512等算法具体应用 #!/usr/bin/env python # -*- coding: UTF-8 -*- #pyversion:python3.5 #owner:fuzj import h
Python中subprocess模块用法实例详解

本文实例讲述了Python中subprocess模块用法.分享给大家供大家参考.具体如下: 执行命令: >>> subprocess.call(["ls", "-l"]) 0 >>> subprocess.call("exit 1", shell=True) 1 测试调用系统中cmd命令,显示命令执行的结果: x=subprocess.check_output(["echo", "
Python中random模块用法实例分析

本文实例讲述了Python中random模块用法.分享给大家供大家参考.具体如下: import random x = random.randint(1,4); y = random.choice(['appale','banana','cherry','durian']); print(x,y); 运行结果如下: (2, 'cherry') 不管学哪个语言,我总喜欢弄个随机数玩玩.农历十一月初六,Let's Python!!! l=[ ] while True: name=input("请输入
python中requests模块的使用方法

本文实例讲述了python中requests模块的使用方法.分享给大家供大家参考.具体分析如下: 在HTTP相关处理中使用python是不必要的麻烦,这包括urllib2模块以巨大的复杂性代价获取综合性的功能.相比于urllib2,Kenneth Reitz的Requests模块更能简约的支持完整的简单用例. 简单的例子: 想象下我们试图使用get方法从http://example.test/获取资源并且查看返回代码,content-type头信息,还有response的主体内容.这件事无论使用