python实现统计文本中单词出现的频率详解
本文实例为大家分享了python统计文本中单词出现频率的具体代码,供大家参考,具体内容如下
#coding=utf-8 import os from collections import Counter sumsdata=[] for fname in os.listdir(os.getcwd()): if os.path.isfile(fname) and fname.endswith('.txt'): with open(fname,'r') as fp: data=fp.readlines() sumsdata+=[line.strip().lower() for line in data] cnt=Counter() for word in sumsdata: cnt[word]+=1 cnt=dict(cnt) for key,value in cnt.items(): print(key+":"+str(value))
首先在和程序所在路径下创建几个文本文件,我建了两个,文件内容分别为hello python goodbye python 和 i like python。运行程序,得到以下结果
以上所述是小编给大家介绍的python统计文本中单词出现频率详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我们网站的支持!
相关推荐
-
python统计文本字符串里单词出现频率的方法
本文实例讲述了python统计文本字符串里单词出现频率的方法.分享给大家供大家参考.具体实现方法如下: # word frequency in a text # tested with Python24 vegaseat 25aug2005 # Chinese wisdom ... str1 = """Man who run in front of car, get tired. Man who run behind car, get exhausted."&quo
-
Python开发的单词频率统计工具wordsworth使用方法
使用方法: python wordsworth --filename textfile.txt python wordsworth -f textfile.txt 分析结果: 附上github项目地址:https://github.com/autonomoid/wordsworth
-
Python读取英文文件并记录每个单词出现次数后降序输出示例
本文实例讲述了Python读取英文文件并记录每个单词出现次数后降序输出.分享给大家供大家参考,具体如下: 对文中出现的句号,逗号和感叹号做了相应的处理 sorted排序函数用法: 按照value值降序排列: sorted(dict.items(),key=lambda k:k[1],reverse=True) 按照value值升序排序: sorted(dict.items(),key=lambda k:k[1],reverse=False) 或者 sorted(dict.items(),key=
-
Python3实现统计单词表中每个字母出现频率的方法示例
本文实例讲述了Python3实现统计单词表中每个字母出现频率的方法.分享给大家供大家参考,具体如下: 作为python字典与数组概念的运用,统计字母表中每个字母出现的频率,作为练习再合适不过. 解决问题过程中需要用到的知识点包括:字典的创建.增添元素,数组的创建.增添元素,数组的遍历等 这个问题解决的思路为:首先从文件中按行依次读入单词,去除换行符后添加到数组 new_list 中.依次遍历数组 new_list 的每一个字符串,将每个字符串连同上一次循环中的频率统计结果 old_d (old_
-
Python统计单词出现的次数
题目: 统计一个文件中每个单词出现的次数,列出出现频率最多的5个单词. 前言: 这道题在实际应用场景中使用比较广泛,比如统计历年来四六级考试中出现的高频词汇,记得李笑来就利用他的编程技能出版过一本背单词的畅销书,就是根据词频来记单词,深受学生喜欢.这就是一个把编程技能用来解决实际问题的典型场景.另外,在数据分析时,那些词云效果本质上都是基于词频统计来调整字体的大小,如果你能熟练运用Python中的知识来解决问题的话,说明你真的入门Python了. 分析 本题主要考察以下几个方面的知识点: 1.如
-
python实现统计文本中单词出现的频率详解
本文实例为大家分享了python统计文本中单词出现频率的具体代码,供大家参考,具体内容如下 #coding=utf-8 import os from collections import Counter sumsdata=[] for fname in os.listdir(os.getcwd()): if os.path.isfile(fname) and fname.endswith('.txt'): with open(fname,'r') as fp: data=fp.readlines
-
Python:Scrapy框架中Item Pipeline组件使用详解
Item Pipeline简介 Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item,他的主要任务是清晰.验证和存储数据. 当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据. 每个Item管道的组件都是有一个简单的方法组成的Python类. 他们获取了Item并执行他们的方法,同时他们还需要确定的是是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理. Item管道通常执行的过程有 清理HTML数据 验证解析到的数据(检查Item是否包含必要的字段) 检查是
-
python正则表达式从字符串中提取数字的思路详解
python从字符串中提取数字 使用正则表达式,用法如下: ## 总结 ## ^ 匹配字符串的开始. ## $ 匹配字符串的结尾. ## \b 匹配一个单词的边界. ## \d 匹配任意数字. ## \D 匹配任意非数字字符. ## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符). ## x* 匹配0次或者多次 x 字符. ## x+ 匹配1次或者多次 x 字符. ## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次. ## (a|b|c) 要么匹配
-
如何在python开发工具PyCharm中搭建QtPy环境(教程详解)
在Python的开发工具PyCharm中安装QtPy5(版本5):打开"File"--"Settings"--"Project Interpreter",点击窗口中右侧点添加按钮,然后在弹出的窗口添加PyQt5模块包,单击Install Package按钮,如图所示: 安装好安装PyQt5后,需要用同样的方法安装pyqt5-tools,安装PyQt5后没有designer.exe就是因为没有安装pyqt5-tools.安装好PyQt5后,desi
-
python统计文章中单词出现次数实例
python统计单词出现次数 做单词词频统计,用字典无疑是最合适的数据类型,单词作为字典的key, 单词出现的次数作为字典的 value,很方便地就记录好了每个单词的频率,字典很像我们的电话本,每个名字关联一个电话号码. 下面是具体的实现代码,实现了从importthis.txt文件读取单词,并统计出现次数最多的5个单词. # -*- coding:utf-8 -*- import io import re class Counter: def __init__(self, path): "&q
-
如何利用Python快速统计文本的行数
通常我们会用wc -l来统计文件行数,不过用Python统计也很简单. 要快速统计一个文本文件中的行数,其实就是要统计这个文本文件中换行符的个数.为了尽量提高速度,我们需要尽量多读一些文本然后一起处理.统计换行符的个数可以用bytes内置的count方法. 代码如下: from __future__ import print_function import time if __name__ == '__main__': import sys start = time.time() with
-
Python 删除整个文本中的空格,并实现按行显示
希望以后每天写一篇博客,总结一下每天用到的基本功能,不然项目做完也就做完了,给自己留下的资料太少了. 今天需要造大量的姓名和家庭住址的数据,因此根据读取文件中现有的lastname.firstname以及省.市.道路等随机生成大量的模拟姓名和住址.其中用python进行了简单的文本处理,去掉文本中的空格,数字或者没用的字符等. example 1: 从ifn文件中读取数据,根据空格进行逐个读取,并进行换行显示. #encoding = utf-8# ifn = r"firstname.txt&q
-
python 去除txt文本中的空格、数字、特定字母等方法
使用场景:需要去除txt文本中的空格.数字.特定字母等. 需要修改的txt文本叫做:train.txt 修改之后保存成:train_output.txt # ecoding=utf-8 ifn = r"train.txt" ofn = r"train_output.txt" infile = open(ifn,'rb') outfile = open(ofn,'wb') for eachline in infile.readlines(): #去掉文本行里面的空格.
-
python:批量统计xml中各类目标的数量案例
之前写了一个matlab的,越用越觉得麻烦,如果不同数据集要改类别数目,而且运行速度慢.所以重新写了一个Python的,直接读取xml文件夹路径就可以,不用预先知道类别,直接能够检测出所有类别的目标名称及其对应的数量. 分享出来给大家. 代码如下: # -*- coding:utf-8 -*- import os import xml.etree.ElementTree as ET import numpy as np np.set_printoptions(suppress=True, thr
-
数据清洗之如何用一行Python代码去掉文本中的各种符号
目录 前言 1. 问题描述 2. 相关知识 3. 解决方案 总结 前言 在搜集了很多文本语料之后,会开始漫长的数据清洗过程,通常要不断迭代. 1. 问题描述 有些文本数据中,会包含一些特殊符号. 猜想可能是从某些富文本编辑器中直接粘贴到了网页. 如果要清除这些特殊符号,就需要专门的工具. 2. 相关知识 Unicode标准把符号分为四大类,分别是: 缩写 详情 [Sc] Symbol, Currency [Sk] Symbol, Modifier [Sm] Symbol, Math [So] S
随机推荐
- Angular.js中window.onload(),$(document).ready()的写法浅析
- Bootstrap模仿起筷首页效果
- vbs实现的图片自适应表格,目前最佳解决方案!
- 详解SQL Server的简单查询语句
- ES5学习教程之Array对象
- iOS实现视频压缩上传实例代码
- JavaScript焦点事件、鼠标事件和滚轮事件使用详解
- php操作MongoDB类实例
- 怎样调用动态获取的自定义对象的方法
- python实现根据用户输入从电影网站获取影片信息的方法
- Python中使用PyQt把网页转换成PDF操作代码实例
- SQLSERVER 中datetime 和 smalldatetime类型分析说明
- python用Pygal如何生成漂亮的SVG图像详解
- JS取文本框中最小值的简单实例
- js Select下拉列表框进行多选、移除、交换内容的具体实现方法
- js onload事件不起作用示例分析
- Android中EditText实现不可编辑解决办法
- Java双括弧初始化操作技巧
- Java实现常用加密算法——单向加密算法MD5和SHA
- java的Arrays工具类实战