Python统计序列和文件中元素的频度
目录
- 1、如何统计序列中元素的出现频度
- 2、代码演示
1、如何统计序列中元素的出现频度
实际案例:
- (1)某随机序列
[12, 5, 6, 4, 6, 5, 5, 7, ...]
中找到出现次数最高的3个元素,它们出现次数是多少? - (2)对某英文文章的单词,进行词频统计,找到出现次数最高的10个单词,它们出现次数是多少?
解决方案:
使用collections.Counter
对象
将序列传入Counter
的构造器,得到Counter
对象是元素频度的字典。
Counter.most_common(n)
方法得到频度最高的n个元素的列表。
2、代码演示
(1)某随机序列 [12, 5, 6, 4, 6, 5, 5, 7, ...] 中找到出现次数最高的3个元素,它们出现次数是多少?
from random import randint # 利用列表解析生成随机序列 data = [randint(0, 20) for _ in range(30)] print(data) # 方法1: ''' 最终的统计结果肯定是一个字典,如:{2: 5, 4:9}, 以data中每一个元素作为字典的键,0作为初始值,创建这样一个字典 ''' c = dict.fromkeys(data, 0) print(c) # 对data进行迭代,进行统计 for x in data: c[x] += 1 print(c) # 根据字典的值对字典项进行排序,并截取前3个元素 sort_dict = sorted(c.items(), key=lambda item: item[1], reverse=True)[0:3] print(sort_dict) # 方法2: from collections import Counter # 直接将序列传给Counter构造器 c2 = Counter(data) print(c2) # 直接使用对象的most_common()方法直接找到频度最高3个 print(c2.most_common(3))
(2)对某英文文章的单词,进行词频统计,找到出现次数最高的10个单词,它们出现次数是多少?
from collections import Counter # 导入正则表达式模块 import re # 读取整个文件内容作为字符串 txt = open('word.txt').read() print(txt) # 对词频进行统计,首先需要进行分割把每一个字取出来 # 用非字母的字符作为分割,然后传给Counter()进行统计 c3 = Counter(re.split('\W+', txt)) # 使用most_common()选取10个频度最高单词 print(c3.most_common(10))
到此这篇关于Python统计序列和文件中元素的频度的文章就介绍到这了,更多相关Python统计序列内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
相关推荐
-
python读取html中指定元素生成excle文件示例
Python2.7编写的读取html中指定元素,并生成excle文件 复制代码 代码如下: #coding=gbkimport stringimport codecsimport os,timeimport xlwtimport xlrdfrom bs4 import BeautifulSoup from xlrd import open_workbook class LogMsg: def __init__(self,logfile,Level=0):
-
Python将list元素转存为CSV文件的实现
首先先定义一个list,将其转存为csv文件,看将会报什么错误 list=[[1,2,3],[4,5,6],[7,9,9]] list.to_csv('e:/testcsv.csv',encoding='utf-8') 运行后出现: Traceback (most recent call last): File "D:/Python/untitled/PcCVS.py", line 43, in <module> list.to_csv('e:/testcsv.
-
python 把文件中的每一行以数组的元素放入数组中的方法
有时候需要把文件中的数据放入到数组中,这里提供了一种方法,可以根据文件结尾的标记进行数据拆分,然后再把拆分的文件放入数组中 # -*-coding: utf-8 -*- f = open("username.txt","w") f.write("Lycoridiata\n") f.write("wulei\n") f.write("leilei\n") f.write("Xingyu\n"
-
python如何统计序列中元素
本文实例为大家分享了python统计序列中元素的具体代码,供大家参考,具体内容如下 问题1: 随机数列[12,5,8,7,8,9,4,8,5,...] 中出现次数最高的3个元素,他们出现的次数 问题2: 对某英文文章的单词,进行词频统计,找出出现次数最搞得10个单词,他们出现的次数是多少? 上面问题都是以字典的形式保存结果 如何解决问题1? 方法1: #!/usr/bin/python3 from random import randint def count_seq(data): # 初始化统
-
Python读取本地文件并解析网页元素的方法
如下所示: from bs4 import BeautifulSoup path = './web/new_index.html' with open(path, 'r') as f: Soup = BeautifulSoup(f.read(), 'lxml') titles = Soup.select('ul > li > div.article-info > h3 > a') for title in titles: print(title.text) 输出: Sardinia
-
Python统计序列和文件中元素的频度
目录 1.如何统计序列中元素的出现频度 2.代码演示 1.如何统计序列中元素的出现频度 实际案例: (1)某随机序列[12, 5, 6, 4, 6, 5, 5, 7, ...] 中找到出现次数最高的3个元素,它们出现次数是多少? (2)对某英文文章的单词,进行词频统计,找到出现次数最高的10个单词,它们出现次数是多少? 解决方案: 使用collections.Counter对象 将序列传入Counter的构造器,得到Counter对象是元素频度的字典. Counter.most_common(n
-
如何使用python统计字符在文件中出现的次数
目录 引言: 一.本项目来源: 二.先上传自己写的程序 三.解读程序语句. 四.程序运行效果 五.程序中需要注意的事 总结 引言: 本人从小白自学python,为了测试基础学习效果,增加一定的促进,想通过参加全国计算机等级考试二级python来检验基础学习情况.在学习过程中,会将该过程编写的python小程序题目在此发表,希望找到共同学习的人一起讨论,可能发表的有许多不是很完善的地方,请大家指正.后期学习路线,还会继续通过参加一些社会类的考试来检验学习成果.高阶段学习的话,可能会参加一些pyth
-
python实现读取excel文件中所有sheet操作示例
本文实例讲述了python实现读取excel文件中所有sheet操作.分享给大家供大家参考,具体如下: 表格是这样的 实现把此文件所有sheet中 标识为1 的行,取出来,存入一个字典.所有行组成一个列表. # -*- coding: utf-8 -*- from openpyxl import load_workbook def get_data_from_excel(excel_dir):#读取excel,取出所有sheet要执行的接口信息,返回列表 work_book = load_wor
-
python 实现提取log文件中的关键句子,并进行统计分析
利用python开发了一个提取sim.log 中的各个关键步骤中的时间并进行统计的程序: #!/usr/bin/python2.6 import re,datetime file_name='/home/alzhong/logs/qtat1/R2860.01.13/sim-applycommitrollback-bld1.log' file=open(file_name,'r') acnum=[];time_res=[];lnum=0 def trans_time(time): t1=datet
-
Python批量提取PDF文件中文本的脚本
本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import os import sys import time pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf')) for pdf1 in pdfs: pdf = pdf1.replace(' ', '_').replace('-
-
Python实现将json文件中向量写入Excel的方法
本文实例讲述了Python实现将json文件中向量写入Excel的方法.分享给大家供大家参考,具体如下: 有一个需要是将已经向量化的页面的数据中的向量写入Excel中用于展示,工作很简单,这里简单复习一下Excel文件写的工作,试验中使用的json文件内容如下: 复制代码 代码如下: [ {"vector": [0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0
-
python 在某.py文件中调用其他.py内的函数的方法
假设名为A.py的文件需要调用B.py文件内的C(x,y)函数 假如在同一目录下,则只需 import B if __name__ == "__main__": B.C(x,y) 若只需调用单个函数,也可以 from B import C if __name__ == "__main__": C(x,y) 若A.py和B.py位于不同的目录下,可以用以下方法 (假设B.py位于D盘的根目录下) 1.引用所在路径 import sys sys.path.append(
-
python将txt等文件中的数据读为numpy数组的方法
实际中,很多数据都是存为txt文件.csv文件等,但是在程序中处理的时候numpy数组或列表是最方便的.本文简单介绍读入txt文件以及将之转化为numpy数组或列表的方法. 1 将txt文件读为list并转化为numpy数组 import numpy as np file = open('filename.txt') val_list = file.readlines() lists =[] for string in val_list: string = string.split('\t',3
-
Python实现读取txt文件中的数据并绘制出图形操作示例
本文实例讲述了Python实现读取txt文件中的数据并绘制出图形操作.分享给大家供大家参考,具体如下: 下面的是某一文本文件中的数据. 6.1101,17.592 5.5277,9.1302 8.5186,13.662 7.0032,11.854 5.8598,6.8233 8.3829,11.886 7.4764,4.3483 8.5781,12 6.4862,6.5987 5.0546,3.8166 5.7107,3.2522 14.164,15.505 5.734,3.1551 8.408
-
python实现从pdf文件中提取文本,并自动翻译的方法
针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令translate,这个命令会调用google translate api执行自动翻译: pdfminer3k会提供一个工具脚本pdf2txt.py: $ pdf2txt.py xxx.pdf 从stackoverflow搜索到可以去除页眉和页脚的命令(强烈推荐): 使用Ubuntu提供的pdftotext
随机推荐
- Access转SqlServer的注意事项
- Java8中Optional类型和Kotlin中可空类型的使用对比
- python算法学习之桶排序算法实例(分块排序)
- js实现仿购物车加减效果
- .NET微信公众号客服接口
- Android 广播大全 Intent Action 事件详解
- 在Django的模型中添加自定义方法的示例
- 无循环 JavaScript(map、reduce、filter和find)
- distinct 多列问题结合group by的解决方法
- Jquery倒数计时按钮setTimeout的实例代码
- Yarn的安装与使用详细介绍
- Android 消息机制以及handler的内存泄露
- Android编程实现的一键锁屏程序详解
- Android应用开发中WebView的常用方法笔记整理
- java volatile关键字使用方法及注意事项
- 基于iframe实现类似于ajax的页面无刷新
- linux平台的office文档转pdf的实例(程序员的菜)
- 基于node下的http小爬虫的示例代码
- javascript中let和var以及const关键字的区别
- Django REST framework内置路由用法