基于Python实现抢注大词的提词工具

假设通过爬虫获得了一个自媒体.txt

想要从这些关键词中提取流量最大的关键词

可以通过如下算法实现:

from smoothnlp.algorithm.phrase import extract_phrase
import re

class_name = '自媒体'
class_name_low = class_name.lower()
top_k = 100

with open('%s.txt' % class_name,'r',encoding='utf-8') as file:
	data_str = file.read()
	keyword_list = data_str.split('\n')

with open('dont.txt','r',encoding='utf-8') as file:
	dont_set = set(file.read().split('\n'))

word_count_dict = dict()
new_word_list = extract_phrase(keyword_list,top_k=top_k)
for new_word in new_word_list:
	if new_word in dont_set:
		continue

	new_word_low = new_word.lower()

	if class_name_low in new_word_low or class_name_low == new_word_low:
		word_count_dict[new_word] = len(re.findall(new_word_low,data_str))
		continue

	add_l = re.findall('%s%s' % (class_name_low,new_word_low),data_str)
	add_r = re.findall('%s%s' % (new_word_low,class_name_low),data_str)
	if len(add_l) >= len(add_r):
		word_count_dict['%s%s' % (class_name,new_word)] = len(add_l)
	else:
		word_count_dict['%s%s' % (new_word,class_name)] = len(add_r)

for word,count in word_count_dict.items():
	print('%s\t%s' % (word,count))

其中:

自媒体.txt 就是需要的关键词库

dont.txt 就是过滤掉一些没有用的词汇

获得的结果如下,下面的这些词就是流量很大的词汇 可以用于注册账号去获取流量

自媒体领域    702
自媒体软件    502
自媒体身份证    68
自媒体推荐    450
自媒体研究    199
自媒体素材    378
自媒体原创    1147
自媒体审核    417
浏览器自媒体    110
自媒体阅读量    378
自媒体app    346
自媒体工具    222
自媒体图片    416
自媒体电脑    112
自媒体管理    824
自媒体内容    1083
自媒体电视剧    48
自媒体申请    742
自媒体注册    1597
百度自媒体    545
自媒体同步    89
自媒体电影片段    14
自媒体检测    36
自媒体抄袭    130
自媒体选择    215
自媒体产品    105
自媒体信息    355
自媒体粉丝    474
自媒体下载    173
企业自媒体    789
自媒体收益    1296
自媒体数据    317
淘宝自媒体    263
自媒体手机    568
自媒体剪辑    367
自媒体电影    380
自媒体服务    167
自媒体采集    234
自媒体变现    246
自媒体修改    65
自媒体风险    43
中国自媒体    533
自媒体兼职    182
自媒体定位    143
自媒体英语    53
自媒体传播    776
抖音自媒体    686
自媒体渠道    212
自媒体影响力    130
0万粉丝自媒体    18
自媒体绑定    47
自媒体免费    205
自媒体认证    1662
自媒体流量    595
自媒体播放量    164
万粉丝自媒体    42
自媒体评论    116
自媒体邀请码    137
健康自媒体    96
自媒体问题    35
自媒体收入    826
自媒体垂直    129
自媒体招聘    665
自媒体奖励    26
自媒体教程    312
自媒体盈利模式    140
自媒体热点    104
自媒体标题    561
自媒体经营范围    20
自媒体意识形态    13
自媒体ppt    70
自媒体品牌    219
自媒体竞争    45
自媒体社会    235
自媒体现状    123
开通自媒体    219
2018自媒体    443
国外自媒体    350
自媒体公司    2862
自媒体介绍    311
自媒体生活    180
自媒体模式    56
自媒体故事    55
自媒体分析    168
自媒体策划    244
自媒体版权    123
自媒体推广    1893
自媒体考核    38
自媒体情况    32
自媒体搬运    958
音乐自媒体    337

最后的所有项目代码如下:

到此这篇关于基于Python实现抢注大词的提词工具的文章就介绍到这了,更多相关Python提词工具内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python实现关键词提取的示例讲解

    新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~ 今天我来弄一个简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词:去停用词,我用了一个停用词表. 具体代码如下: import jieba import jieba.analyse #第一步:分词,这里使用结巴分词全模式 text = '''新闻,也叫消息,是指报纸.电台.电视台.互联网经常使用的记录社会.传播信息.反映时

  • python实现textrank关键词提取

    用python写了一个简单版本的textrank,实现提取关键词的功能. import numpy as np import jieba import jieba.posseg as pseg class TextRank(object): def __init__(self, sentence, window, alpha, iternum): self.sentence = sentence self.window = window self.alpha = alpha self.edge_

  • 基于Python和TFIDF实现提取文本中的关键词

    目录 前言 词频逆文档频率(TFIDF) Term Frequency Inverse Document Frequency TFIDF Python 中的 TFIDF Python 库准备 准备数据集 文本预处理 TFIDF关键词提取 1.生成 n-gram 并对其进行加权 2. 按 TFIDF 权重对关键短语进行排序 性能评估 附录 前言 关键词提取是从简明概括长文本内容的文档中,自动提取一组代表性短语.关键词是一个简短的短语(通常是一到三个单词),高度概括了文档的关键思想并反映一个文档的内

  • python提取内容关键词的方法

    本文实例讲述了python提取内容关键词的方法.分享给大家供大家参考.具体分析如下: 一个非常高效的提取内容关键词的python代码,这段代码只能用于英文文章内容,中文因为要分词,这段代码就无能为力了,不过要加上分词功能,效果和英文是一样的. 复制代码 代码如下: # coding=UTF-8 import nltk from nltk.corpus import brown # This is a fast and simple noun phrase extractor (based on

  • 基于Python实现抢注大词的提词工具

    假设通过爬虫获得了一个自媒体.txt 想要从这些关键词中提取流量最大的关键词 可以通过如下算法实现: from smoothnlp.algorithm.phrase import extract_phrase import re class_name = '自媒体' class_name_low = class_name.lower() top_k = 100 with open('%s.txt' % class_name,'r',encoding='utf-8') as file: data_

  • 基于Python制作一个多进制转换工具

    目录 前言 主要步骤 完整代码 前言 学习资料下载链接 提取码:tha8  进制转换计算工具含源文件 主要步骤 导入模块 import tkinter from tkinter import * import tkinter as tk from tkinter.ttk import * 整个框架的主结构 root = Tk() root.title('贱工坊-进制转换计算') # 程序的标题名称 root.geometry("580x400+512+288") # 窗口的大小及页面的

  • 基于Python制作图像完美超分处理工具

    目录 前言 安装 使用 图片超分 视频超分 项目说明 代码说明 总结 前言 很久没更新这个专栏了,最近比较忙.前段时间看到了这个模型觉着很有意思,弄下来自己玩了玩,但是没时间写文章,一直搁置到现在. 废话不多说,先上Github地址: RealBasicVSR地址 从给出的效果来看,还是很不错的,左侧是超分后的画面,右边是原画质,得到明显提升.下面我说一下我的安装过程,还有一些使用中的踩坑,让大家去测试项目的时候可以提前规避. 安装 项目拉下来之后,我们先打开README,看看说明. 安装的步骤

  • 基于Python制作B站视频下载小工具

    目录 1. 原理简介 2. 网页分析 3. 视频爬取 4. 存入本地 5. GUI工具制作 1. 原理简介 原理很简单,就是获取视频资源的源地址,然后爬取视频的二进制内容,再写入到本地即可. 2. 网页分析 打开该网页,然后F12进入开发者模式,接着点开网络—>全部,因为视频资源一般比较大,我这里根据大小进行了从大到小的排序,找到了第一条这些可能和视频源地址有关. 然后,我们复制找到的这条里的url部分不变的部分,回到元素中ctrl+F搜索,找到了可能和视频源地址有关的节点. 果然,我们复制这部

  • 基于Python实现在线二维码生成工具

    目录 1.环境搭建 2.二维码生成功能的封装 3.网页应用的搭建 在今天的教程中,费老师我将为大家展示如何通过纯Python编程的方式,开发出一个网页应用,从而帮助用户直接通过浏览器访问,即可基于输入的网址等文字内容,完成常规二维码.静态底图二维码以及动图底图二维码的快捷生成,先来看一看应用的主要功能操作演示: 只写Python开发这样精致的工具应用非常简单,下面我来带大家从搭建环境开始,学习整个过程: 1.环境搭建 首先我们来创建应用的虚拟开发环境,建议使用Conda,命令如下: 创建虚拟环境

  • 基于Python实现简单的汉字拼音转换工具

    目录 1.准备 2.基本使用 3.高级使用 将汉字转为拼音,可以用于批量汉字注音.文字排序.拼音检索文字等常见场景. 现在互联网上有许多拼音转换工具,基于Python的开源模块也不少,今天给大家介绍一个功能特性最多的模块:  pypinyin ,它支持以下特性: 1. 根据词组智能匹配最正确的拼音. 2. 支持多音字. 3. 简单的繁体支持, 注音支持. 4. 支持多种不同拼音/注音风格. 5. 命令行工具一键转化 1.准备 开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,

  • 基于Python实现图片一键切割九宫格的工具

    有时候发微博时候,需要裁切图片为九宫格,但是ps或者其他工具都太麻烦,这里写一个python一键切割九宫格的工具,以供大家学习和使用! 实现代码 """ 1.将一张图片填充为正方形 2.将文字加到方形图片上 3.讲图片切为9张图并存储 """ import os from tkinter import filedialog from PIL import Image from future.moves import tkinter # 填充文字的

  • 基于python实现可视化生成二维码工具

    环境 pip install gooey pip install MyQR 源代码 from gooey import GooeyParser,Gooey from MyQR import myqr @Gooey(encoding='utf-8',program_name='二维码生成器',program_description='生成动态.彩色.黑白二维码',language='chinese') def main(): parser = GooeyParser(description="生成

  • 基于Python词云分析政府工作报告关键词

    前言 十三届全国人大三次会议作了政府工作报告.这份政府工作报告仅有10500字左右,据悉是改革开放40年以来最短的一次.受到疫情影响,今年的两会会议适当缩短,政府工作报告也大幅压缩,体现了"实干为要"的理念.那么,这份政府工作报告突出强调了哪些关键词呢?我们其实可以基于Python技术进行词频分析和词云制作! import matplotlib.pyplot as plt#绘图库 import jieba from wordcloud import WordCloud # 读入文本数据

  • 基于Python的科学占卜工具开发过程

    目录 背景 前置知识 基础原理 如何产生卦象 开发 源代码 背景 一直以来,中式占卜都是基于算命先生手工实现,程序繁琐(往往需要沐浴.计算天时.静心等等流程).准备工作复杂(通常需要铜钱等道具),计算方法复杂,需要纯手工计算二进制并转换为最终的卦象,为了解决这个问题,笔者基于python实现了一套科学算命工具,用于快速进行占卜本文的算命方式采用八卦 + 周易+ 梅花易数实现,脚本基于python3.9.0开发.本人对于周易五行研究较浅,如有疏漏请见谅最终效果如图,在运行程序之后,会根据当前的运势

随机推荐