Python实现提取语句中的人名

目录
  • 前言
  • 环境依赖
  • 代码
  • 验证一下
  • 总结

前言

本文提供将语句中的人名提取出来的工具方法,可以拿去直接使用。

环境依赖

需要安装两个库,其实一个也可以,但是我这边准备了两个库做个比较。

安装命令如下:

pip install LAC -i https://pypi.douban.com/simple
pip install ltp -i https://pypi.douban.com/simple

代码

不废话,上代码。

#!/user/bin/env python
# coding=utf-8
"""
@project : csdn
@author  : 剑客阿良_ALiang
@file   : extract_sentence_name_tool.py
@ide    : PyCharm
@time   : 2022-01-25 11:11:43
"""
from LAC import LAC
from ltp import LTP
import time

lac = LAC(mode="lac")
ltp = LTP()

# 句子提取名字
def extract_name(sentence: str, type='lac'):
    user_name_lis = []
    if type == 'lac':
        _result = lac.run(sentence)
        for _index, _label in enumerate(_result[1]):
            if _label == "PER":
                user_name_lis.append(_result[0][_index])
    elif type == 'ltp':
        _seg, _hidden = ltp.seg([sentence])
        _pos_hidden = ltp.pos(_hidden)
        for _seg_i, _seg_v in enumerate(_seg):
            _hidden_v = _pos_hidden[_seg_i]
            for _h_i, _h_v in enumerate(_hidden_v):
                if _h_v == "nh":
                    user_name_lis.append(_seg_v[_h_i])
    else:
        raise Exception('type not suppose')
    return user_name_lis

if __name__ == '__main__':
    _start_lac = time.time()
    lis1 = extract_name("就因为看了沈腾和贾玲的王牌对王牌节目,所以杨迪肯定偷题了。", 'lac')
    _end_lac = time.time()
    print("LAC: {} <- 耗时[{}]秒".format(lis1, (_end_lac - _start_lac)))

    _start_ltp = time.time()
    lis2 = extract_name("就因为看了沈腾和贾玲的王牌对王牌节目,所以杨迪肯定偷题了。", 'ltp')
    _end_ltp = time.time()
    print("LTP: {} <- 耗时[{}]秒".format(lis2, (_end_ltp - _start_ltp)))

代码说明:

1、extract_name方法入参分别为:语句参数、类型参数。其中默认为lac模式,可以选择ltp模式。

其中lac模型提取人名的速率较快,但是ltp的提取人名准确率更高。

验证一下

执行看看效率。

总结

使用的时候可以多试试两个库的区别,ltp的准确率稍微高一点。

到此这篇关于Python实现提取语句中的人名的文章就介绍到这了,更多相关Python提取人名内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 基于Python实现PDF区域文本提取工具

    目录 功能简介 开发代码 功能简介 打开软件后界面如下: 点击打开文件按钮打开之前的PDF文件后效果如下: 框选区域后,标题栏会自动显示当前框选的区域提取到的文字,还可以左右按钮切换: 实际我们需要提取文字的区域可能不止这一个,所以程序支持多区域框选: 完成区域框选后就可以点击保存文件,将PDF每页提取到的文本保存到一个csv文件中,当前选区的保存结果如下: 可以看到已经按框选顺序依次保存了每一个区域的字符串. 如果选择区域时发现提取结果不准确,可以撤销后重新选择: 保存图片则会将PDF的每页的

  • python实现精准搜索并提取网页核心内容

    目录 各种尝试 生成PDF 提取文章内容 选择最优 总结 文 | 李晓飞 来源:Python 技术「ID: pythonall」 爬虫程序想必大家都很熟悉了,随便写一个就可以获取网页上的信息,甚至可以通过请求自动生成 Python 脚本[1]. 最近我遇到一个爬虫项目,需要爬取网上的文章.感觉没有什么特别的,但问题是没有限定爬取范围,意味着没有明确的页面的结构. 对于一个页面来说,除了核心文章内容外,还有头部,尾部,左右列表栏等等.有的页面框架用 div 布局,有的用 table,即使都用 di

  • 分步骤教你用python一步步提取PPT中的图片

    目录 一.实现原理 二.提取PPT中的图片 1.打开压缩包 2.解压文件 三.提取PPT中的图片 一.实现原理 其实实现原理很简单,我们的pptx文件其实是一个压缩包.我们可以直接修改pptx文件的后缀,改成zip然后解压,比如下面这个: 这是解压后的文件.我们可以在ppt目录下找到一个media目录,这个目录下就是我们要的图片的.这个目录包含了PPT的所有多媒体文件. 知道这点后,我们就可以选择用Python来解压出PPT中的media目录就可以提取出所有图片了. 二.提取PPT中的图片 1.

  • Python提取视频帧图片实例代码

    为了从视频中提取每一帧图片,编写Python脚本实现该功能 video_path为指定的视频路径 interval为指定分割视频是是否跳帧,默认不跳帧,即全部分割 width, height 为指定对分割帧图片调整大小,默认不调整 该脚本自动对帧图片编号,设置为7位编码,最多可分割9999999帧图片,即92小时的30FPS视频 # !/usr/bin/env python # -*- coding: utf-8 -*- # ===================================

  • Python 3行代码提取音乐高潮部分

    目录 1.原理简介 2.代码编写 2.1 安装所需要的项目 2.2 编写代码 3.效果检验 4.批量提取 前言: 有些时候,为了设定手机铃声或者发抖音视频,我们会耗费大量时间在剪辑音乐高潮部分上.那么这个音乐高潮的提取能不能自动化呢?当然可以. 先来看看,怎么样来提取孤芳自赏提取高潮后的部分: 1.原理简介 不知道大家有没有这样的体会,大部分时候,歌曲的高潮部分通常是重复次数最多的部分.因此我们可以根据这一个特征,提出我们的算法: 1.遍历整首歌曲. 2.将选定长度的部分与其他部分比较并计算相似

  • python 提取视频中的音频工具类详解

    前言 利用Python的ffmpy库提取视频中的音频.本文提供工具类代码. 环境依赖 需要安装ffmpy,安装指令: pip install ffmpy -i https://pypi.douban.com/simple 工具代码 不废话,上代码. #!/user/bin/env python # coding=utf-8 """ @project : csdn @author : huyi @file : extract_audio_from_audio.py @ide :

  • Python实现提取语句中的人名

    目录 前言 环境依赖 代码 验证一下 总结 前言 本文提供将语句中的人名提取出来的工具方法,可以拿去直接使用. 环境依赖 需要安装两个库,其实一个也可以,但是我这边准备了两个库做个比较. 安装命令如下: pip install LAC -i https://pypi.douban.com/simple pip install ltp -i https://pypi.douban.com/simple 代码 不废话,上代码. #!/user/bin/env python # coding=utf-

  • python 在sql语句中使用%s,%d,%f说明

    python连接数据库执行增删查改 mysql数据库 import pymysql postgresql数据库 import psycopg2 普通含%的python语句 sql语句中 普通sql语句 select * from tables where tablename = 'table_name' ,所以这里该加的引号还是要加 不加的情况 翻页的情况 like的情况 因为普通sql语句是 where 列名 like '4301%' 这里需要多加一个%防止转义 补充知识:python 中 s

  • 使用Python编写提取日志中的中文的脚本的方法

    由于工作需要在一大堆日志里面提取相应的一些固定字符,如果单纯靠手工取提取,数据量大,劳心劳力,于是自然而然想到了用Python做一个对应的提取工具,代替手工提取的繁杂,涉及中文字符,正则表达式不好匹配,但不是不可以实现,这个以后优化时再说. 需求描述: 一个父目录中存在多个子文件夹,子文件夹下有多个txt形式化的Log日志,要求从所有地方Log日志中找出CardType=9, CardNo=0时的CardID的值,并将其统计存储到一个文本文件中,要求CardID不能够重复. 需求解析: 首先获取

  • python 实现提取PPT中所有的文字

    我就废话不多说了,大家还是直接看代码吧~ # 导入pptx包 from pptx import Presentation prs = Presentation(path_to_presentation) text_runs = [] for slide in prs.slides: for shape in slide.shapes: if not shape.has_text_frame: continue for paragraph in shape.text_frame.paragraph

  • 提取视频中的音频 Python只需要三行代码!

    身处数据爆炸增长的信息时代,各种各样的数据都飞速增长,视频数据也不例外.我们可以使用 python 来提取视频中的音频,而这仅仅需要安装一个体量很小的 python 库,然后执行三行代码! 语音数据在数据分析领域极为重要.比如可以分析语义.口音.根据人的情绪等等.可以应用于偏好分析.谎话检测等等. 一.提取音频 需要用到 python 的 moviepy 库 moviepy的 github 地址:https://github.com/Zulko/moviepy 命令行 pip 安装上 movie

  • Python中的if判断语句中包含or问题

    目录 Python if判断语句中包含or python中if相关语句 1.if语句 2.if-else语句 3.if-elif-else(多重判断)语句 4.if嵌套语句 5.猜拳小游戏 6.三目运算符 Python if判断语句中包含or i= 0 if i == 1 or 5: print(i) 此时并非是判断i是否等于1或者5,而是(if i == 1) or (5): 所以这个if判断语句前半段 i==1为false, 则继续判断后半句:后半段为5,此时5为非零,即为true.所以整体

  • 基于Python正则表达式提取搜索结果中的站点地址

    正则表达式对于Python来说并不是独有的,最近在把google搜索的结果中所有的站点地址导出,于是想到用python正则表达式提取搜索结果中的站点地址. 这其中涉及几个需要解决的问题: 1.获取搜索的结果文本 为了获得更多的地址,我使用了Google的高级搜索功能,每个页面显示100条结果. 获得显示的结果后,可以查看源码,并保持成文本文件就有了搜索的结果文本 2.分析如何提取站点信息 首先需要分析获取的页面,查看以怎样的方式可以提取出站点信息. 我使用IE8自带的开发工具(按F12就会弹出来

  • Python循环语句中else的用法总结

    前言 本文讨论Python的for-else和while-else等语法,这些是Python中最不常用.最为误解的语法特性之一. Python中的for.while等循环都有一个可选的else分支(类似if语句和try语句那样),在循环迭代正常完成之后执行.换句话说,如果我们不是以除正常方式以外的其他任意方式退出循环,那么else分支将被执行.也就是在循环体内没有break语句.没有return语句,或者没有异常出现. 下面我们来看看详细的使用实例. 一. 常规的 if else 用法 x =

  • Python cookbook(数据结构与算法)筛选及提取序列中元素的方法

    本文实例讲述了Python筛选及提取序列中元素的方法.分享给大家供大家参考,具体如下: 问题:提取出序列中的值或者根据某些标准对序列做删减 解决方案:列表推导式.生成器表达式.使用内建的filter()函数 1.列表推导式方法:存在一个潜在的缺点,如果输入数据非常大可能会产生一个庞大的结果,考虑到该问题,建议选择生成器表达式 # Examples of different ways to filter data mylist = [1, 4, -5, 10, -7, 2, 3, -1] prin

随机推荐