python数据分析:关键字提取方式

2025-02-19 06:08:34

TF-IDF

TF-IDF（Term Frequencey-Inverse Document Frequency）指词频-逆文档频率，它属于数值统计的范畴。使用TF-IDF，我们能够学习一个词对于数据集中的一个文档的重要性。

TF-IDF的概念

TF-IDF有两部分，词频和逆文档频率。首先介绍词频，这个词很直观，词频表示每个词在文档或数据集中出现的频率。等式如下：

TF(t)=词t在一篇文档中出现的次数/这篇文档的总词数

第二部分——逆文档频率实际上告诉了我们一个单词对文档的重要性。这是因为当计算TF的时候，我们对每个词赋予了同等的重要性，它出现得越多，它的TF就越高，如果它出现了100次，也许相比其他出现更少的词，它并不携带那么多信息，因此我们需要赋予它们权重，决定每个词的重要性。使用下面的等式得到IDF：

IDF(t)=(log10文档的篇数/包含词t文档的篇数)

那么，计算TF-IDF的方法如下：

TF * IDF=(词t在一篇文档中出现的次数/这篇文档的总词数)* log10(文档的篇数/包含词t文档的篇数)

应用

TF-IDF可以应用于如下场景：

通常可以使用TF-IDF进行文本数据分析，得到最准确的关键词信息。

如果你正开发一个文本摘要应用，并正在进行统计，TF-IDF是生成摘要最重要的特征。

TF-IDF权重的变动常用于搜索引擎，以求出文档的得分以及同用户检索的相关性。

文本分类应用将TF-IDF和BOW一起使用。

TextRank

TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。

基于TextRank的关键词提取

关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系（共现窗口）对后续关键词进行排序，直接从文本本身抽取。其主要步骤如下：

把给定的文本T按照完整句子进行分割，即

对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即，其中是保留后的候选关键词。

构建候选关键词图G = (V,E)，其中V为节点集，由（2）生成的候选关键词组成，然后采用共现关系（co-occurrence）构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。

根据上面公式，迭代传播各节点的权重，直至收敛。

对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。

python实现：

# 导入库
import jieba.analyse # 导入关键字提取库
import pandas as pd # 导入pandas
import newspaper
# 读取文本数据
# 获取文章 银保监会出台新政为例
article = newspaper.Article('https://finance.sina.com.cn/money/bank/bank_hydt/2019-02-25/doc-ihsxncvf7656807.shtml', language='zh')
# 下载文章
article.download()
# 解析文章
article.parse()
# 对文章进行nlp处理
article.nlp()
# nlp处理后的文章拼接
string_data = "".join(article.keywords)
# 关键字提取
def get_key_words(string_data, how=''):
  # topK：提取的关键字数量，不指定则提取全部；
  # withWeight：设置为True指定输出词对应的IF-IDF权重
  if how == 'textrank':
    # 使用TextRank 算法
    tags_pairs = jieba.analyse.textrank(string_data, topK=5, withWeight=True) # 提取关键字标签
  else:
    # 使用TF-IDF 算法
    tags_pairs = jieba.analyse.extract_tags(string_data, topK=5, withWeight=True) # 提取关键字标签
  tags_list = [] # 空列表用来存储拆分后的三个值
  for i in tags_pairs: # 打印标签、分组和TF-IDF权重
    tags_list.append((i[0], i[1])) # 拆分三个字段值
  tags_pd = pd.DataFrame(tags_list, columns=['word', 'weight']) # 创建数据框
  return tags_pd

keywords = get_key_words(string_data)
print("#####################TF-IDF####################")
print(keywords)

keywords_tr = get_key_words(string_data, how='textrank')
print("#####################textrank####################")
print(keywords_tr)

结果如下：

#####################TF-IDF####################
  word  weight
0 民营企业 0.327466
1  贷款 0.112652
2  融资 0.089557
3 商业银行 0.084860
4  服务 0.072322
#####################textrank####################
  word  weight
0 民营企业 1.000000
1   要 0.553043
2  贷款 0.493173
3  融资 0.379846
4  服务 0.371273

以上这篇python数据分析:关键字提取方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

Python3 文章标题关键字提取的例子

思路: 1.读取所有文章标题: 2.用"结巴分词"的工具包进行文章标题的词语分割: 3.用"sklearn"的工具包计算Tf-idf(词频-逆文档率); 4.得到满足关键词权重阈值的词结巴分词详见:结巴分词Github sklearn详见:文本特征提取--4.2.3.4 Tf-idf项加权 import os import jieba import sys from sklearn.feature_extraction.text import TfidfVecto
python提取包含关键字的整行数据方法

问题描述: 如下图所示,有一个近2000行的数据表,需要把其中含有关键字'颈廓清术,中央组(VI组)'的数据所在行都都给抽取出来,且提取后的表格不能改变原先的顺序. 问题分析: 一开始想用excel的筛选功能,但是发现只提供单列筛选,由于关键词在P,S,V,Y,AB列都有,故需要筛选5次.但是筛选完后再整合再一起的表格顺序就乱了,而原先的表格排序规律不可知,无法通过简单的排序实现.于是决定用Python写个代码来解决这个问题~ python生成的表格是这个样子滴^_^那些空白的行就是不符合要求的
Python解析、提取url关键字的实例详解

解析url用的类库: python2版本: from urlparse import urlparse import urllib python3版本: from urllib.parse import urlparse import urllib.request 研究了不同的url规则发现:只要在搜索关键字是用=嫁接的,查询的关键在解析后的query里如果不是用=嫁接,查询的关键在解析后的path里. 解析的规则都是一样的,正则如下:(6中不同情况的组合) 另外host为's.weibo.c
python数据分析:关键字提取方式

TF-IDF TF-IDF(Term Frequencey-Inverse Document Frequency)指词频-逆文档频率,它属于数值统计的范畴.使用TF-IDF,我们能够学习一个词对于数据集中的一个文档的重要性. TF-IDF的概念 TF-IDF有两部分,词频和逆文档频率.首先介绍词频,这个词很直观,词频表示每个词在文档或数据集中出现的频率.等式如下: TF(t)=词t在一篇文档中出现的次数/这篇文档的总词数第二部分--逆文档频率实际上告诉了我们一个单词对文档的重要性.这是因为当计
Python 数据分析之Beautiful Soup 提取页面信息

概述数据分析 (Data Analyze) 可以在工作中的各个方面帮助我们. 本专栏为量化交易专栏下的子专栏, 主要讲解一些数据分析的基础知识. Beautiful Soup Beautiful 是一个可以从 HTML 或 XML 文件中提取数据的 Pyhton 库. 简单来说, 它能将 HTML 的标签文件解析成树形结构, 然后方便的获取到指定标签的对应属性. 安装: pip install beautifulsoup4 例子: from bs4 import BeautifulSoup #
Python数据分析numpy数组的3种创建方式

目录一.使用列表创建numpy数组 1 使用numpy创建一维数组 2 使用numpy创建二维数组 3 使用numpy创建一维数组,源为不同数据类型的列表二.通过读取图片创建多维numpy数组 1 将图片信息读取到numpy数组中 2 在jupyter中读取图片数据后并显示 3 对图片数组数据处理三.通过指定函数生成numpy数组 1 生成多维数组 2 生成一维线性数组 3 生成一维等差数列 4 生成随机的多维数组一.使用列表创建numpy数组 1 使用numpy创建一维数组 2 使用n
python文件数据分析治理提取

目录前提提要要求思路代码运行结果分析 1)读取文件 2)读取数据 3)数据整理 4)正则表达式匹配外加数据去重 6)数据导出保存前提提要 python2.0有无法直接读取中文路径的问题,需要另外写函数.python3.0在2018年的时候也无法直接读取. 现在使用的时候,发现python3.0是可以直接读取中文路径的. 需要自带或者创建几个txt文件,里面最好写几个数据(姓名,手机号,住址) 要求写代码的时候最好,自己设几个要求,明确下目的: 需要读取对应目录路径的所有对应文件
Python数据分析:手把手教你用Pandas生成可视化图表的教程

大家都知道,Matplotlib 是众多 Python 可视化包的鼻祖,也是Python最常用的标准可视化库,其功能非常强大,同时也非常复杂,想要搞明白并非易事.但自从Python进入3.0时代以后,pandas的使用变得更加普及,它的身影经常见于市场分析.爬虫.金融分析以及科学计算中. 作为数据分析工具的集大成者,pandas作者曾说,pandas中的可视化功能比plt更加简便和功能强大.实际上,如果是对图表细节有极高要求,那么建议大家使用matplotlib通过底层图表模块进行编码.当然,我
Python数据分析之绘图和可视化详解

一.前言 matplotlib是一个用于创建出版质量图表的桌面绘图包(主要是2D方面).该项目是由John Hunter于2002年启动的,其目的是为Python构建一个MATLAB式的绘图接口.matplotlib和IPython社区进行合作,简化了从IPython shell(包括现在的Jupyter notebook)进行交互式绘图.matplotlib支持各种操作系统上许多不同的GUI后端,而且还能将图片导出为各种常见的矢量(vector)和光栅(raster)图:PDF.SVG.JPG
Python数据分析之PMI数据图形展示

目录前言 PMI 数据获取 pmi 图形绘制总结前言前文讲述了 ppi-cpi 和 m0-m1-m2 的图形绘制,在本文中继续分享一个反映经济活动景气度的指标 PMI ,在本文中还是采用爬虫的方式获取数据,然后通过 matplotlib 绘图工具将 PMI 逐年数据进行展示.对于新手来讲,会学习到 python 的基础知识.爬虫以及图形绘制的知识. PMI 数据获取在获取数据之前,先讲述一下 PMI (采购经理人指数) 数据背后的含义: 大家都知道,制造业是一个国家的立国之本,那么 P
Python数据分析之绘制m1-m2数据

目录前言 m0-m1-m2 数据获取 ppi-cpi 图形绘制总结前言前文讲述了 ppi-cpi的图形绘制,在本文中继续分享另外一个与经济息息相关的货币数据指标 M0-M1-M2 ,在这里还是采用爬虫的方式获取数据,然后通过 matplotlib 绘图工具将 m0-m1-m2 数据同框展示,最后通过颜色填充来表示其中的差额部分.对于新手来讲,会学习到 python 的基础知识.爬虫以及图形绘制的知识. m0-m1-m2 数据获取在获取数据之前,先讲述一下数据背后的含义: 1 m0,即流
Python数据分析之绘制ppi-cpi剪刀差图形

目录前言 ppi 和 cpi 数据获取 ppi-cpi 图形绘制总结前言 ppi-cpi 剪刀差大家可能都听说过,通过这个指标可以了解当前的经济运行状况,小编为了学习 python 的图形绘制,通过爬虫的方式获取到 ppi 和 cpi 的历史数据,然后通过 matplotlib 绘图工具将 ppi 数据和 cpi 数据同框展示,最后通过颜色填充来表示其中的差额部分.对于新手来讲,会学习到 python 的基础知识.爬虫以及图形绘制的知识. ppi 和 cpi 数据获取既然是数据获取,就需

python数据分析:关键字提取方式

相关推荐

随机推荐