利用Python3实现统计大量单词中各字母出现的次数和频率的方法

首先以只读方式打开单词文件,利用列表推导式创建两个列表
列表sta记录各单词出现的次数,列表freq记录各单词出现的频率

f = open('5500词.txt','r',encoding='utf-8')
sta = [0 for i in range(26)]
freq = [0 for i in range(26)]

单词格式如下所示:
a [ei] art.一(个);每一(个);(同类事物中)任一个
abandon [ə'bændən] vt.离弃,丢弃;遗弃,抛弃;放弃
abdomen [æb'dəumen] n.腹,下腹(胸部到腿部的部分)
abatement [ə'beitmənt] n.减(免)税,打折扣,冲销
abide [ə'baid] vi.(abode,abided)(by)遵守;坚持;vt.忍受,容忍

每行一个单词,所以我们选择按行读取文件

for i in range(5500):
  buf = f.readline()

然后依次统计每个字符串中的字母个数,注意大写字母也要统计(后面的字母省略)

for j in buf:
    if j == 'a' or j == 'A':
      sta[0] = sta[0] + 1
    elif j == 'b' or j == 'B':
      sta[1] = sta[1] + 1

注意到每个单词后都有音标,所以遇到 中括号" [ "时停止计数

if j == '[':
      break

然后每五个一行,依次输出各个单词出现的次数,将print函数中的end参数由默认换行改成几个空格,使输出更格式化。字母利用ASCII码输出

print('5498个词汇中,各字母出现的次数分别为:\n')
asc = 97
for i in range(26):
  if i < 25:
    print("%c" % asc,':',sta[i],end='  ')
    if (i + 1) % 5 == 0:
      print('\n')
  else:
    print("%c" % asc,':',sta[i])
  asc = asc + 1

利用一个for遍历计算出所有字母数量的总和

sum = 0
for i in sta:
  sum = sum + i

利用一个for遍历计算出各字母出现的频率,注意到Python中计算出的频率会自动保留17位小数,为了方便查看,使用round()函数保留四位小数,值得注意的是,使用round()函数会自动去掉数字末尾的0

for i in range(26):
  freq[i] = round(sta[i] / sum,4)

再以每五个一行,依次输出各个单词出现的频率,将print函数中的end参数由默认换行改成几个空格,使输出更格式化。字母利用ASCII码输出。

print('各字母出现的频率分别为:\n')
for i in range(26):
  if i < 25:
    print("%c" % asc,':',freq[i],end='  ')
    if (i + 1) % 5 == 0:
      print('\n')
  else:
    print("%c" % asc,':',freq[i])
  asc = asc + 1

最后输出的结果如下图所示:

上概率论的课时,偶然看见居然有人拿着词典去数字母的数量,就想能不能写一个自动统计的程序,于是就随便写着玩。代码功底很差,所以写得很丑(居然有25个elif),所以看个乐呵就好了。

总的来说,我觉得有这些可以改进的地方:
①读取单词的方法可以改进,这种一行一行读取的方式,对格式要求很高,很难找到
②用字典来存储频数和频率是否会更好?后面输出的时候可以避免使用ASCII码,但是字典推导式我属实记不清了
③判断计数的这些if和elif能否抽象出一个方法?增加代码复用
④round()函数会自动去掉小数后面的0,有没有什么方法使0被保留下来?这样输出的格式会更好看

我的代码的优点估计只有一点了:
①Python初学者就能看懂

到此这篇关于利用Python3实现统计大量单词中各字母出现的次数和频率的方法的文章就介绍到这了,更多相关Python3字母出现次数和频率内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python读取英文文件并记录每个单词出现次数后降序输出示例

    本文实例讲述了Python读取英文文件并记录每个单词出现次数后降序输出.分享给大家供大家参考,具体如下: 对文中出现的句号,逗号和感叹号做了相应的处理 sorted排序函数用法: 按照value值降序排列: sorted(dict.items(),key=lambda k:k[1],reverse=True) 按照value值升序排序: sorted(dict.items(),key=lambda k:k[1],reverse=False) 或者 sorted(dict.items(),key=

  • python统计文章中单词出现次数实例

    python统计单词出现次数 做单词词频统计,用字典无疑是最合适的数据类型,单词作为字典的key, 单词出现的次数作为字典的 value,很方便地就记录好了每个单词的频率,字典很像我们的电话本,每个名字关联一个电话号码. 下面是具体的实现代码,实现了从importthis.txt文件读取单词,并统计出现次数最多的5个单词. # -*- coding:utf-8 -*- import io import re class Counter: def __init__(self, path): "&q

  • Python统计单词出现的次数

    题目: 统计一个文件中每个单词出现的次数,列出出现频率最多的5个单词. 前言: 这道题在实际应用场景中使用比较广泛,比如统计历年来四六级考试中出现的高频词汇,记得李笑来就利用他的编程技能出版过一本背单词的畅销书,就是根据词频来记单词,深受学生喜欢.这就是一个把编程技能用来解决实际问题的典型场景.另外,在数据分析时,那些词云效果本质上都是基于词频统计来调整字体的大小,如果你能熟练运用Python中的知识来解决问题的话,说明你真的入门Python了. 分析 本题主要考察以下几个方面的知识点: 1.如

  • Python实现的统计文章单词次数功能示例

    本文实例讲述了Python实现的统计文章单词次数功能.分享给大家供大家参考,具体如下: 题目是这样的:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词. 其实就是统计一篇文章出现最多的单词,但是要去除那些常见的连词.介词和谓语动词等,代码: #coding=utf-8 import collections import re import os useless_words=('the','a','an','and','by',

  • 利用Python3实现统计大量单词中各字母出现的次数和频率的方法

    首先以只读方式打开单词文件,利用列表推导式创建两个列表 列表sta记录各单词出现的次数,列表freq记录各单词出现的频率 f = open('5500词.txt','r',encoding='utf-8') sta = [0 for i in range(26)] freq = [0 for i in range(26)] 单词格式如下所示: a [ei] art.一(个):每一(个):(同类事物中)任一个 abandon [ə'bændən] vt.离弃,丢弃:遗弃,抛弃:放弃 abdomen

  • Python3实现统计单词表中每个字母出现频率的方法示例

    本文实例讲述了Python3实现统计单词表中每个字母出现频率的方法.分享给大家供大家参考,具体如下: 作为python字典与数组概念的运用,统计字母表中每个字母出现的频率,作为练习再合适不过. 解决问题过程中需要用到的知识点包括:字典的创建.增添元素,数组的创建.增添元素,数组的遍历等 这个问题解决的思路为:首先从文件中按行依次读入单词,去除换行符后添加到数组 new_list 中.依次遍历数组 new_list 的每一个字符串,将每个字符串连同上一次循环中的频率统计结果 old_d (old_

  • awk脚本统计一组单词中字母出现最多最少频率

    目录 字母计数 打印相对频率 最后的完整程序 编写一个 awk 脚本来找到一组单词中出现次数最多(和最少)的单词. 近一段时间,我开始编写一个小游戏,在这个小游戏里,玩家使用一个个字母块来组成单词.编写这个游戏之前,我需要先知道常见英文单词中每个字母的使用频率,这样一来,我就可以找到一组更有用的字母块.字母频次统计在很多地方都有相关讨论,包括在 维基百科 上,但我还是想要自己来实现. Linux 系统在 /usr/share/dict/words 文件中提供了一个单词列表,所以我已经有了一个现成

  • python 统计list中各个元素出现的次数的几种方法

    利用字典dict来完成统计 举例: a = [1, 2, 3, 1, 1, 2] dict = {} for key in a: dict[key] = dict.get(key, 0) + 1 print dict 输出结果: >>>{1: 3, 2: 2, 3: 1} 利用Python的collection包下Counter的类 举例: from collections import Counter a = [1, 2, 3, 1, 1, 2] result = Counter(a)

  • Java编程实现统计一个字符串中各个字符出现次数的方法

    本文实例讲述了Java编程实现统计一个字符串中各个字符出现次数的方法.分享给大家供大家参考,具体如下: import java.util.Iterator; import java.util.Set; import java.util.TreeMap; public class TreeMapDemo { //统计一个字符串中相应字符出现的次数 public static void main(String[] args) { // System.out.println("我们测试结果:"

  • Java统计英文句子中出现次数最多的单词并计算出现次数的方法

    本文实例讲述了Java统计英文句子中出现次数最多的单词并计算出现次数的方法.分享给大家供大家参考,具体如下: import java.util.*; /** * 统计出现次数最多的单词和它出现的次数 * * @author ZHR */ public class CountWord { public static String[] strTostrArray(String str) { /* * 将非字母字符全部替换为空格字符" " 得到一个全小写的纯字母字符串包含有空格字符 */ s

  • python3利用venv配置虚拟环境及过程中的小问题小结

    在利用python进行flask等开发过程中经常需要配置虚拟环境以方便针对不同的项目需求配置不同的生产环境.在python3.3之前,需要利用virtualenv等工具来实现python虚拟开发环境的配置,在python3.3中加入了venv模块支持原生创建虚拟环境.但在python3.3版本中venv模块没有内置pip包,在3.4版本后加入了pip包,创立并激活虚拟环境后可直接使用.本篇以配置一个虚拟 环境并安装flask为例记录我自己配置虚拟环境的过程. 总的来说分为以下三步: 创建虚拟环境

  • 利用python3筛选excel中特定的行(行值满足某个条件/行值属于某个集合)

    前言 做数据分析的时候通常我们并不是对真个excel文件进行操作,换言之,每一列都是一个特征,我们需要针对分析.遇到这类问题的时候,我们通常想得到一列中所有符合条件的数据,挑出来,然后组成一个单独的文件进行分析.比如一列中我们希望找到所有大于100的所有行,又比如 我们希望得到一列中包含某个特定字母的所有行,那么我们应该怎么办呢,这里就说一下. 在这之前我们先介绍一个pandas里面一个函数 loc() 英文解释是这样的:Purely label-location based indexer f

  • 如何利用Python快速统计文本的行数

    ​​通常我们会用wc -l来统计文件行数,不过用Python统计也很简单. 要快速统计一个文本文件中的行数,其实就是要统计这个文本文件中换行符的个数.为了尽量提高速度,我们需要尽量多读一些文本然后一起处理.统计换行符的个数可以用bytes内置的count方法. 代码如下: from __future__ import print_function import time if __name__ == '__main__': import sys start = time.time() with

  • PHP编程计算文件或数组中单词出现频率的方法

    本文实例讲述了PHP编程计算文件或数组中单词出现频率的方法.分享给大家供大家参考,具体如下: 如果是小文件,可以一次性读入到数组中,使用方便的数组计数函数进行词频统计(假设文件中内容都是空格隔开的单词): <?php $str = file_get_contents("/path/to/file.txt"); //get string from file preg_match_all("/\b(\w+[-]\w+)|(\w+)\b/",$str,$r); //

随机推荐