Python jieba 中文分词与词频统计的操作

2025-02-23 07:29:11

我就废话不多说了，大家还是直接看代码吧~

#! python3
# -*- coding: utf-8 -*-
import os, codecs
import jieba
from collections import Counter

def get_words(txt):
 seg_list = jieba.cut(txt)
 c = Counter()
 for x in seg_list:
  if len(x)>1 and x != '\r\n':
   c[x] += 1
 print('常用词频度统计结果')
 for (k,v) in c.most_common(100):
  print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v))

if __name__ == '__main__':
 with codecs.open('19d.txt', 'r', 'utf8') as f:
  txt = f.read()
 get_words(txt)

样本：十九大报告全文

常用词频度统计结果
  发展 ********************************************************************** 212
  中国 ******************************************************** 168
  人民 **************************************************** 157
  建设 ************************************************* 148
 社会主义 ************************************************ 146
  坚持 ******************************************* 130
  国家 ****************************** 90
  全面 ***************************** 88
  制度 *************************** 83
  实现 *************************** 83
  推进 *************************** 81
  政治 ************************** 80
  社会 ************************** 80
  特色 ************************** 79
  加强 *********************** 71
  体系 ********************** 68
  文化 ********************** 66
  我们 ********************* 64
  时代 ********************* 63
  必须 ******************** 61
  经济 ******************* 59
  伟大 ******************* 58
  完善 ***************** 51
  我国 **************** 50
  推动 *************** 47
 现代化 *************** 47
  安全 *************** 46
  更加 ************** 44
  民主 ************** 44

补充：jieba读取txt文档并进行分词、词频统计，输出词云图

代码实现

# 库的引用
import jieba
import matplotlib as mpl
import matplotlib.pyplot as plt
from wordcloud import WordCloud
#定义一个空字符串
final = ""
#文件夹位置
filename = r"D:\python\pra\推荐系统1-500.txt"

#打开文件夹，读取内容，并进行分词
with open(filename,'r',encoding = 'utf-8') as f:
  for line in f.readlines():
    word = jieba.cut(line)
    for i in word:
      final = final + i +" "

运行结果

# 图云打印
word_pic = WordCloud(font_path = r'C:\Windows\Fonts\simkai.ttf',width = 2000,height = 1000).generate(final)
plt.imshow(word_pic)
#去掉坐标轴
plt.axis('off')
#保存图片到相应文件夹
plt.savefig(r'D:\python\pra\6.png')

图云输出图

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

Python 结巴分词实现关键词抽取分析

1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语.因此,目前依然可以在论文中看到关键词这一项. 除了这些,关键词还可以在文本聚类.分类.自动摘要等领域中有着重要的作用.比如在聚类时将关键词相似的几篇文档看成一个团簇,可以大大提高聚类算法的收敛速度:从某天所有的新闻中提取出这些新闻的关键词,就可以大致了解那天发生了什么事情:或者将某段时间内几个人的微博拼成一篇长文本,然后抽取关键词就
Python jieba库用法及实例解析

1.jieba库基本介绍 (1).jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2).jieba分词的原理 Jieba分词依靠中文词库 - 利用一个中文词库,确定汉字之间的关联概率 - 汉字间概率大的组成词组,形成分词结果 - 除了分词,用户还可以添加自定义的词组 jieba库使用说明 (1).jieba分词的三种模式精确模式.全模式
Python结巴中文分词工具使用过程中遇到的问题及解决方法

本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法.分享给大家供大家参考,具体如下: 结巴分词是Python语言中效果最好的分词工具,其功能包括:分词.词性标注.关键词抽取.支持用户词表等.这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下. 官网地址:https://github.com/fxsjy/jieba 1.安装. 按照官网上的说法,有三种安装方式, 第一种是全自动安装:easy_install jieba 或者 pip
python中文分词库jieba使用方法详解

安装python中文分词库jieba 法1:Anaconda Prompt下输入conda install jieba 法2:Terminal下输入pip3 install jieba 1.分词 1.1.CUT函数简介 cut(sentence, cut_all=False, HMM=True) 返回生成器,遍历生成器即可获得分词的结果 lcut(sentence) 返回分词列表 import jieba sentence = '我爱自然语言处理' # 创建[Tokenizer.cut 生成器]
Python jieba 中文分词与词频统计的操作

我就废话不多说了,大家还是直接看代码吧~ #! python3 # -*- coding: utf-8 -*- import os, codecs import jieba from collections import Counter def get_words(txt): seg_list = jieba.cut(txt) c = Counter() for x in seg_list: if len(x)>1 and x != '\r\n': c[x] += 1 print('常用词频度统
Python jieba库分词模式实例用法

在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式.全模式.搜索引擎模式.也对应着三种方式,包括jieba.cut()方法.jieba.lcut()方法.jieba.cut_for_search()方法.下面就为大家实例操作这些分词模式,以及方法的使用,一起来了解下吧. 全模式: import jieba seg_list = jieba.cut("南京市长江大桥欢迎你.", cut_all=True) print(type(seg_list),se
python实现中文分词FMM算法实例

本文实例讲述了python实现中文分词FMM算法.分享给大家供大家参考.具体分析如下: FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去.假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子结束. import re def PreProcess(sentence,edcode="utf-8"): sentence = sentence.decode(edcode) sentence=re.s
python 文本单词提取和词频统计的实例

这些对文本的操作经常用到, 那我就总结一下. 陆续补充... 操作: strip_html(cls, text) 去除html标签 separate_words(cls, text, min_lenth=3) 文本提取 get_words_frequency(cls, words_list) 获取词频源码: class DocProcess(object): @classmethod def strip_html(cls, text): """ Delete html ta
Python jieba结巴分词原理及用法解析

1.简要说明结巴分词支持三种分词模式,支持繁体字,支持自定义词典 2.三种分词模式全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下搜索引擎模式:在精简模式下,对长词再度切分 # -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京天安门广场跳舞' a = jieba.lcut(str1,
python中文分词+词频统计的实现步骤

目录前言一.文本导入二.使用步骤 1.引入库 2.读入数据 3.取出停用词表 4.分词并去停用词(此时可以直接利用python原有的函数进行词频统计) 5. 输出分词并去停用词的有用的词到txt 6.函数调用 7.结果附:输入一段话,统计每个字母出现的次数总结提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档前言本文记录了一下Python在文本处理时的一些过程+代码一.文本导入我准备了一个名为abstract.txt的文本文件接着是在网上下载了stopword
python使用jieba实现中文分词去停用词方法示例

前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐. 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词. 分词模块jieba,它是python比较好用的分词模块.待分词的字符串可以是 unicode 或 UTF-8 字符串.GBK 字符串.注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式 1 精确模式,试图将句子最精确地切开,适合
Python中文分词工具之结巴分词用法实例总结【经典案例】

本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法>中已经有所描述.这里要说的内容与实际应用更贴近--从文本中读取中文信息,利用结巴分词工具进行分词及词性标注. 示例代码如下: #coding=utf-8 import jieba import jieba.posseg as pseg import time t1=time.time() f=open(&q
python实现简单中文词频统计示例

本文介绍了python实现简单中文词频统计示例,分享给大家,具体如下: 任务简单统计一个小说中哪些个汉字出现的频率最高知识点 1.文件操作 2.字典 3.排序 4.lambda 代码 import codecs import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体 mpl.rcParams['axes.unicode_minus

Python jieba 中文分词与词频统计的操作

相关推荐

随机推荐