Python jieba库分词模式实例用法

在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式、全模式、搜索引擎模式。也对应着三种方式,包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就为大家实例操作这些分词模式,以及方法的使用,一起来了解下吧。

全模式:

import jieba
seg_list = jieba.cut("南京市长江大桥欢迎你。", cut_all=True)
print(type(seg_list),seg_list)

精确模式:

seg_list1 = jieba.lcut("南京市长江大桥欢迎你。", cut_all=False)
print(type(seg_list1),seg_list1)

搜索模式:

seg_list2 = jieba.cut_for_search("南京市长江大桥欢迎你。")
print(type(seg_list2),seg_list2)
print("全模式:" + "/ ".join(seg_list))
print("精确模式:" + "/ ".join(seg_list1))
print("搜索引擎模式:" + "/ ".join(seg_list2))

输出结果:

全模式:南京/ 南京市/ 京市/ 市长/ 长江/ 长江大桥/ 大桥/ 欢迎/ 你/ 。

精确模式:南京市/ 长江大桥/ 欢迎/ 你/ 。

搜索引擎模式:南京/ 京市/ 南京市/ 长江/ 大桥/ 长江大桥/ 欢迎/ 你/ 。

内容扩展:

获取词性

我们还可以通过jiaba这个库把词性进行区分,比如动词,名词等

import jieba.posseg as psg

seg_list = psg.cut("我要进行关键词提取")
print([(s.word, s.flag) for s in seg_list])
# [('我', 'r'), ('要', 'v'), ('进行', 'v'), ('关键词', 'n'), ('提取', 'v')]

我们还可以提取动词或者名词,我们来提取下里面的动词

import jieba.posseg as psg

seg_list = psg.cut("我要进行关键词提取")
print([(s.word, s.flag) for s in seg_list if s.flag.startswith('v')])

到此这篇关于Python jieba库分词模式实例用法的文章就介绍到这了,更多相关Python jieba库分词模式怎么用内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python jieba结巴分词原理及用法解析

    1.简要说明 结巴分词支持三种分词模式,支持繁体字,支持自定义词典 2.三种分词模式 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义 精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下 搜索引擎模式:在精简模式下,对长词再度切分 # -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京天安门广场跳舞' a = jieba.lcut(str1,

  • Python基于wordcloud及jieba实现中国地图词云图

    热词图很酷炫,也非常适合热点事件,抓住重点,以图文结合的方式表现出来,很有冲击力.下面这段代码是制作热词图的,用到了以下技术: jieba,把文本分词 wordcloud,制作热图 chardet,辨别文件的编码格式,其中中文统一为GB18030,更加的兼容 imageio,提取图片的形状 其他:自动识别文件编码,自动识别txt文件,图片文件名与txt文件一致,使用的是四大名著的文本(自行百度),部分中国地图 上代码: import os import jieba import wordclou

  • Python基于jieba, wordcloud库生成中文词云

    代码如下 import wordcloud import jieba font = r'C:\Windows\Fonts\simfang.ttf' w = wordcloud.WordCloud(height = 700, width = 1000, font_path=font, \ stopwords=['et','al', 'Crampin', 'and','the', 'Liu'], max_words=30) with open('NSFC.txt', 'r') as f: txt =

  • Python中文分词库jieba,pkusegwg性能准确度比较

    中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文分词难度高很多. 分词主要用于NLP 自然语言处理(Natural Language Processing),使用场景有: 搜索优化,关键词提取(百度指数) 语义分析,智能问答系统(客服系统) 非结构化文本媒体内容,如社交信息(微博热榜) 文本聚类,根据内容生成分类(行业分类) Python的中文分词 Pyt

  • python同义词替换的实现(jieba分词)

    TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词. 年休假 年假 年休 究竟 到底 回家场景 我回来了 代码 import jieba def replaceSynonymWords(string1): # 1读取同义词表,并生成一个字典. combine_dict = {} # synonymWords.txt是同义词表,每行是一系列同义词,用空格分割 for line in open("TihuanWords.txt", &quo

  • python中文分词库jieba使用方法详解

    安装python中文分词库jieba 法1:Anaconda Prompt下输入conda install jieba 法2:Terminal下输入pip3 install jieba 1.分词 1.1.CUT函数简介 cut(sentence, cut_all=False, HMM=True) 返回生成器,遍历生成器即可获得分词的结果 lcut(sentence) 返回分词列表 import jieba sentence = '我爱自然语言处理' # 创建[Tokenizer.cut 生成器]

  • python 利用jieba.analyse进行 关键词提取

    1.简单应用 代码如下: #!/usr/bin/env python # -*- coding: utf-8 -*- # @File : jieba.analyse.py # @Author: 赵路仓 # @Date : 2020/3/14 # @Desc : 提取关键字 # @Contact : 398333404@qq.com import jieba.analyse text='安全.防止水合物和段塞生成的重要措施之一.因此,针对未来还上油田开发技术,我们预先开展了水深1500米管道式油气

  • Python jieba库分词模式实例用法

    在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式.全模式.搜索引擎模式.也对应着三种方式,包括jieba.cut()方法.jieba.lcut()方法.jieba.cut_for_search()方法.下面就为大家实例操作这些分词模式,以及方法的使用,一起来了解下吧. 全模式: import jieba seg_list = jieba.cut("南京市长江大桥欢迎你.", cut_all=True) print(type(seg_list),se

  • python jieba库的基本使用

    一.jieba库概述 jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单只需要掌握一个函数 二.jieba库安装 pip install jieba 三.jieba分词的原理 jieba分词依靠中文词库 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 四.jieba分词的3种模式 精确模式:把文本精确地切分开,不存在冗余单词(最常用) 全模式:把文本中所有可

  • Python Pandas pandas.read_sql函数实例用法

    Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具.Pandas提供了大量能使我们快速便捷地处理数据的函数和方法.你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一.本文主要介绍一下Pandas中read_sql方法的使用. pandas.read_sql(sql,con,index_col = None,coerce_float = True,params

  • Python wxPython库消息对话框MessageDialog用法示例

    本文实例讲述了Python wxPython库消息对话框MessageDialog用法.分享给大家供大家参考,具体如下: 消息对话框即我们平时说的Messagebox,看看它的原型,下面是wxWidgets中的原型定义,C++风格,与python风格的区别就是wx前缀与后面名称直接相连,例如wxMessageDialog,在wxpython中使用时就是wx.MessageDialog wxMessageDialog(wxWindow* parent, const wxString& messag

  • Python wxPython库Core组件BoxSizer用法示例

    本文实例讲述了Python wxPython库Core组件BoxSizer用法.分享给大家供大家参考,具体如下: wx.BoxSizer: box = wx.BoxSizer(integer orient) The orientation can be wx.VERTICAL or wx.HORIZONTAL box.Add(wx.Window window, integer proportion=0, integer flag = 0, integer border = 0) 参数解读: 1.

  • Python Pandas pandas.read_sql_query函数实例用法分析

    Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具.Pandas提供了大量能使我们快速便捷地处理数据的函数和方法.你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一.本文主要介绍一下Pandas中read_sql_query方法的使用. pandas.read_sql_query(sql,con,index_col = None,coerce_float =

  • Python 多线程知识点总结及实例用法

    Python 多线程 多线程类似于同时执行多个不同程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理. 用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度 程序的运行速度可能加快 在一些等待的任务实现上如用户输入.文件读写和网络收发数据等,线程就比较有用了.在这种情况下我们可以释放一些珍贵的资源如内存占用等等. 线程在执行过程中与进程还是有区别的.每个独立的进程有一个程序运行的入口.顺序执行序列和程序的出口.

  • Python实现程序的单一实例用法分析

    本文实例讲述了Python实现程序的单一实例用法.分享给大家供大家参考.具体如下: 这里先使用win32ui.FindWindow查找窗口名字,如果不存在则会抛出一个异常 import wx import win32ui import win32con try: # 首先查找该程序是否已经运行 win = win32ui.FindWindow(None, '窗口名字') try: if win: win.ShowWindow(win32con.SW_SHOWNORMAL) except: pas

  • python统计函数库scipy.stats的用法解析

    背景 总结统计工作中几个常用用法在python统计函数库scipy.stats的使用范例. 正态分布 以正态分布的常见需求为例了解scipy.stats的基本使用方法. 1.生成服从指定分布的随机数 norm.rvs通过loc和scale参数可以指定随机变量的偏移和缩放参数,这里对应的是正态分布的期望和标准差.size得到随机数数组的形状参数.(也可以使用np.random.normal(loc=0.0, scale=1.0, size=None)) In [4]: import numpy a

随机推荐