能让你轻松的实现自然语言处理的5个Python库

2025-01-29 07:42:57

一、前言

自然语言是指人类相互交流的语言，而自然语言处理是将数据以可理解的形式进行预处理，使计算机能够理解的一种方法。简单地说，自然语言处理(NLP)是帮助计算机用自己的语言与人类交流的过程。

自然语言处理是最广泛的研究领域之一。许多大公司在这个领域投资很大。NLP为公司提供了机会，让他们能够根据消费者的情绪和文本很好地了解他们。NLP的一些最佳用例是检测假电子邮件、对假新闻进行分类、情感分析、预测你的下一个单词、自动更正、聊天机器人、个人助理等等。

解决任何NLP任务前要知道的7个术语

标记：它是将整个文本分割成小标记的过程。占卜是根据句子和单词两个基础来完成的。

text = "Hello there, how are you doing today? The weather is great today. python is awsome"

##sentece tokenize (Separated by sentence)
['Hello there, how are you doing today?', 'The weather is great today.', 'python is awsome']
##word tokenizer (Separated by words)
['Hello', 'there', ',', 'how', 'are', 'you', 'doing', 'today', '?', 'The', 'weather', 'is', 'great', 'today', '.','python', 'is', 'awsome']

停止词：一般来说，这些词不会给句子增加太多的意义。在NLP中，我们删除了所有的停止词，因为它们对分析数据不重要。英语中总共有179个停止词。

词干提取：它是通过去掉后缀和前缀将一个单词还原为词根的过程。

词形还原：它的工作原理与词干法相同，但关键的区别是它返回一个有意义的单词。主要是开发聊天机器人、问答机器人、文本预测等。

WordNet：它是英语语言名词、动词、形容词和副词的词汇数据库或词典，这些词被分组为专门为自然语言处理设计的集合。

词性标注：它是将一个句子转换为一个元组列表的过程。每个元组都有一个形式(单词、标记)。这里的标签表示该单词是名词、形容词还是动词等等。

text = 'An sincerity so extremity he additions.'
--------------------------------
('An', 'DT'), ('sincerity', 'NN'), ('so', 'RB'), ('extremity', 'NN'), ('he', 'PRP'), ('additions', 'VBZ')]

词袋：它是一个将文本转换成某种数字表示的过程。比如独热编码等。

sent1 = he is a good boy
sent2 = she is a good girl
            |
            |
        girl good boy
sent1    0    1    1
sent2    1    0    1

现在，让我们回到我们的主题，看看可以帮助您轻松预处理数据的库。

二、NLTK

毫无疑问，它是自然语言处理最好和使用最多的库之一。NLTK是自然语言工具包的缩写。由Steven Bird 和Edward Loper开发的。它带有许多内置的模块，用于标记化、词元化、词干化、解析、分块和词性标记。它提供超过50个语料库和词汇资源。

安装:pip install nltk

让我们使用NLTK对给定的文本执行预处理

import nltk
#nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re
ps = PorterStemmer()
text = 'Hello there,how are you doing today? I am Learning Python.'
text = re.sub("[^a-zA-Z0-9]"," ",text)
text = word_tokenize(text)
text_with_no_stopwords = [ps.stem(word) for word in text if word not in stopwords.words('english')]
text = " ".join(text_with_no_stopwords)
text
-----------------------------------------------OUTPUT------------------------------------
'hello today I learn python'

三、TextBlob

Textblob是一个简化的文本处理库。它提供了一个简单的API，用于执行常见的NLP任务，如词性标记、情感分析、分类、翻译等。

安装:pip install textblob

四、spacy

这是python中最好用的自然语言处理库之一，它是用cpython编写的。它提供了一些预训练的统计模型，并支持多达49种以上的语言进行标记化。它以卷积神经网络为特征，用于标记、解析和命名实体识别。

安装:pip install spacy

import spacy
nlp = spacy.load('en_core_web_sm')
text = "I am Learning Python Nowdays"
text2 = nlp(text)
for token in text2:
  print(token,token.idx)
------------------------------OUTPUT-----------------------
I 0
am 2
Learning 5
Python 14
Nowdays 21

五、Gensim

它是一个Python库，专门用于识别两个文档之间的语义相似性。它使用向量空间建模和主题建模工具包来寻找文档之间的相似之处。它是设计用来处理大型文本语料库的算法。

安装:pip install gensim

六、CoreNLP

Stanford CoreNLP的目标是简化对一段文本应用不同语言工具的过程。这个库运行速度非常快，并且在开发中工作得很好。

安装:pip install stanford-corenlp

到此这篇关于5个Python库就能让你轻松的实现自然语言预处理的文章就介绍到这了,更多相关Python库自然语言预处理内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python文件名的匹配之clob库

一.前言既然在Pathlib库中提到了glob()函数,那么我们就专门用一篇内容讲解文件名的匹配.其实我们有专门的一个文件名匹配库就叫:glob. 不过,glob库的API非常小,但是仅仅应用于文件名的匹配绰绰有余.只要是在实际的项目中需要过滤,或者匹配一组文件,都可以使用该库进行操作. 二.通配符星号(*) 话不多说,下面我们使用通配符来匹配文件名,示例如下: import glob for name in sorted(glob.glob('text/*')): print(name)
Python自动安装第三方库的小技巧(pip使用详解)

大家好,我是才哥. 最近周末也加班了,害- 有刚接触python的粉丝同学在运行此前<>的完整代码遇到以下问题,然后- 好吧,今天我们就专门介绍一下Python安装第三方库的一些小技巧,其中还包含自动安装的方法哈. 1. pip在线安装在cmd命令行模式下,通过pip install 第三方库名称的形式,直接进行第三方库的安装. 我们以安装plotly为例,安装表现如下: pip install plotly 如果需要安装的第三方库已经存在,我们执行安装命令的时候会提示其存在且展示库安装的位
Python自然语言处理之词干,词形与最大匹配算法代码详解

本文主要对词干提取及词形还原以及最大匹配算法进行了介绍和代码示例,Python实现,下面我们一起看看具体内容. 自然语言处理中一个很重要的操作就是所谓的stemming和lemmatization,二者非常类似.它们是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别. 1.词干提取(stemming) 定义:Stemmingistheprocessforreducinginflected(orsometimesderived)wordstotheirstem,base
python爬虫请求库httpx和parsel解析库的使用测评

Python网络爬虫领域两个最新的比较火的工具莫过于httpx和parsel了.httpx号称下一代的新一代的网络请求库,不仅支持requests库的所有操作,还能发送异步请求,为编写异步爬虫提供了便利.parsel最初集成在著名Python爬虫框架Scrapy中,后独立出来成立一个单独的模块,支持XPath选择器, CSS选择器和正则表达式等多种解析提取方式, 据说相比于BeautifulSoup,parsel的解析效率更高. 今天我们就以爬取链家网上的二手房在售房产信息为例,来测评下http
用Python进行一些简单的自然语言处理的教程

本月的每月挑战会主题是NLP,我们会在本文帮你开启一种可能:使用pandas和python的自然语言工具包分析你Gmail邮箱中的内容. NLP-风格的项目充满无限可能: 情感分析是对诸如在线评论.社交媒体等情感内容的测度.举例来说,关于某个话题的tweets趋向于正面还是负面的意见?一个新闻网站涵盖的主题,是使用了更正面/负面的词语,还是经常与某些情绪相关的词语?这个"正面"的Yelp点评不是很讽刺么?(祝最后去的那位好运!) 分析语言在文学中的使用,进而衡量词汇或者写作风格随时间/
Python自然语言处理之切分算法详解

一.前言我们需要分析某句话,就必须检测该条语句中的词语. 一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定.常用的切分算法有完全切分.正向最长匹配.逆向最长匹配以及双向最长匹配. 本篇博文将一一介绍这些常用的切分算法. 二.完全切分完全切分是指,找出一段文本中的所有单词. 不考虑效率的话,完全切分算法其实非常简单.只要遍历文本中的连续序列,查询该序列是否在词典中即可.上一篇我们获取了词典的所有词语dic,这里我们直接用代码遍历某段文本,完全切分出所有的词
Python编程使用NLTK进行自然语言处理详解

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向.自然语言工具箱(NLTK,NaturalLanguageToolkit)是一个基于Python语言的类库,它也是当前最为流行的自然语言编程与开发工具.在进行自然语言处理研究和应用时,恰当利用NLTK中提供的函数可以大幅度地提高效率.本文就将通过一些实例来向读者介绍NLTK的使用. NLTK NaturalLanguageToolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库. NLTK是一个开源的项目,包含:P
python自然语言处理之字典树知识总结

一.什么是字典树在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构.字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串. 字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的一条路径,并在终点节点上做个标记(表明到该节点就结束了). 要查询一个单词,指需要顺着这条路径从根节点往下走.如果能走到标记的节点,则说明该字符串在集合中,否则说明不在.下图为字典树结构示例: 如上图所示,每条路径都是一个词汇,且没有子节点就可以判定该条路径结尾了.具体可
Python自然语言处理 NLTK 库用法入门教程【经典】

本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK 库.NLTK 是一个当下流行的,用于自然语言处理的 Python 库. 那么 NLP 到底是什么?学习 NLP 能带来什么好处? 简单的说,自然语言处理( NLP )就是开发能够理解人类语言的应用程序和服务. 我们生活中经常会接触的自然语言处理的应用,包括语音识别,语音翻译,理解句意,理解特定词语的
python第三方库visdom的使用入门教程

概述 Visdom:一个灵活的可视化工具,可用来对于实时,富数据的创建,组织和共享.支持Torch和Numpy还有pytorch. visdom 可以实现远程数据的可视化,对科学实验有很大帮助.我们可以远程的发送图片和数据,并进行在ui界面显示出来,检查实验结果,或者debug. 要用这个先要安装,对于python模块而言,安装都是蛮简单的: pip install visdom 安装完每次要用直接输入代码打开: python -m visdom.server 然后根据提示在浏览器中输入相应
Python的文本常量与字符串模板string库

一.前言在程序中,有很多高效率的字符串处理方式,如果开发者能够完全掌握这些高效的字符串处理,往往在开发者也能事半功倍.比如针对于字符串的处理,也是自然语言处理的基础知识. 而python3中,处理字符串的库为:string.本篇将详细介绍各种字符串的高效处理方式. 二.首字母大写对于英文单词组成的字符串来说,很多时候,我们需要对英文的首字母进行大写的变更.如果没有了解其高效率的函数,一般我们都通过循环,判断空格,取空格后一位的字母,判断其在ASCII中的编码后,取其大写替换掉该位置的字符串.