python fuzzywuzzy模块模糊字符串匹配详细用法

2025-04-01 19:13:40

导入：

>>> from fuzzywuzzy import fuzz
>>> from fuzzywuzzy import process

1）

>>> fuzz.ratio("this is a test", "this is a test!")
out 97
>>> fuzz.partial_ratio("this is a test", "this is a test!")
out 100

fuzz.ratio()对位置敏感，全匹配。fuzz.partial_ratio()对位置敏感，搜索匹配。

2）

>>> fuzz._process_and_sort(s, force_ascii, full_process=True)

对字符串s排序。force_ascii:True 或者False。为True表示转换为ascii码。如果full_process为True，则会将字符串s转换为小写，去掉除字母和数字之外的字符（发现不能去掉-字符），剩下的字符串以空格分开，然后排序。如果为False，则直接对字符串s排序。

>>> fuzz._token_sort(s1, s2, partial=True, force_ascii=True, full_process=True)

给出字符串 s1, s2的相似度。首先经过 fuzz._process_and_sort（）函数处理。partial为True时，再经过fuzz.partial_ratio（）函数。partial为False时，再经过fuzz.ratio（）函数。

>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
out 100

partial为False的_token_sort()

fuzz.partial_token_sort_ratio(s1, s2, force_ascii=True, full_process=True)

就是partial为True时的Fuzz._token_sort（）

3）

>>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
out 100

fuzz._token_set(s1, s2, partial=True, force_ascii=True, full_process=True)

当partial为False时，就是 fuzz.token_set_ratio（）函数。

fuzz.partial_token_set_ratio(s1, s2, force_ascii=True, full_process=True)

partial为True的fuzz._token_set（）函数。

4）

fuzz.QRatio(s1, s2, force_ascii=True, full_process=True)

full_process为True时，经过utils.full_process(）函数。然后经过fuzz.ratio()函数。对顺序敏感。

fuzz.UQRatio(s1, s2, full_process=True)

就是 force_ascii为False的fuzz.QRatio（）函数。

fuzz.WRatio(s1, s2, force_ascii=True, full_process=True)

使用另一种不同算法计算相似度。对顺序敏感。

UWRatio(s1, s2, full_process=True)

是force_ascii为False的fuzz.WRatio(）函数。

总结：如果计算相似度的字符串只有字母和数字，直接可以用ratio（）和partial_ratio()。但如果还有其他字符，而且我们想要去掉这些没用字符，就用下边的。下边的函数都对顺序不敏感，但token_sort_ratio（）系列是全字符匹配，不管顺序。而token_set_ratio（）只要第二个字符串包含第一个字符串就100,不管顺序。

5）

>>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]
>>> process.extract("new york jets", choices, limit=2)
 [('New York Jets', 100), ('New York Giants', 78)]
>>> process.extractOne("cowboys", choices)
 ("Dallas Cowboys", 90)

>>> process.extract(query, choices, processor=default_processor, scorer=default_scorer, limit=5)

query是字符串，choices是数组，元素是字符串。 processor是对输入比较的字符串的处理函数，默认是fuzzywuzzy.utils.full_process()，即将字符串变为小写，去掉除字母和数字之外的字符（发现不能去掉-字符），剩下的字符串以空格分开。scorer计算两个字符串相似度的函数，默认fuzz.WRatio()。 limit是输出个数。

输出为数组，元素为元组，元祖第一个匹配到的字符串，第二个为int型，为score。对输出按照score排序。

>>> process.extractWithoutOrder(query, choices, processor=default_processor, scorer=default_scorer, score_cutoff=0)

score_cutoff为一个阈值，当score小于该阈值时，不会输出。返回一个生成器，输出每个大于 score_cutoff的匹配，按顺序输出，不排序。

>>> process.extractBests(query, choices, processor=default_processor, scorer=default_scorer, score_cutoff=0, limit=5)

process.extractBests（）和process.extract（）都调用了process.extractWithoutOrder（），只不过process.extractBests（）能传输 score_cutoff。

>>> process.extractOne(query, choices, processor=default_processor, scorer=default_scorer, score_cutoff=0)

也调用了process.extractWithoutOrder（），只不过输出一个score最高的值。

process.dedupe(contains_dupes, threshold=70, scorer=fuzz.token_set_ratio)

contains_dupes是数组，元素为字符串。

取出相似度小于 threshold的字符串，相似度大于 threshold的字符串取最长一个。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Python使用random模块生成随机数操作实例详解

本文实例讲述了Python使用random模块生成随机数操作.分享给大家供大家参考,具体如下: 今天在用Python编写一个小程序时,要用到随机数,于是就在网上查了一下关于Python生成各种随机数的方法,现将其总结如下: 此处,利用Python中的random模块生成随机数.因此首先必须导入该模块:import random 一. 随机产生一个元素 import random #生成一个0到1的随机浮点数: 0 <= n < 1.0 print(random.random()) >&g
python自动重试第三方包retrying模块的方法

retrying是一个python的重试包,可以用来自动重试一些可能运行失败的程序段,retrying提供一个装饰器函数retry,被装饰的函数就会在运行失败的情况下重新执行,默认只要一直报错就会不断重试. 最近写了一个爬虫,需要连接国外的一个网站,经常出现掉线的情况,自己写了一个自动重连的代码,但感觉不够简洁... 后来就上万能的github,找到了一个第三包,基本能满足我的要求.这个第三方包就是retrying. 我的需求就是每当出现request相关异常的时候,就自动重来,上限连接10次:
Python使用scipy模块实现一维卷积运算示例

本文实例讲述了Python使用scipy模块实现一维卷积运算.分享给大家供大家参考,具体如下: 一介绍 signal模块包含大量滤波函数.B样条插值算法等等.下面的代码演示了一维信号的卷积运算. 二代码 import numpy as np import scipy.signal x = np.array([1,2,3]) h = np.array([4,5,6]) print(scipy.signal.convolve(x, h))#一维卷积运算三运行结果 [ 4 13 28 27 1
使用python os模块复制文件到指定文件夹的方法

复制一个文件夹的文件到指定目录下 import os import shutil import time start_time = time.time() # 需要被复制的文件夹 old_path = r'D:\zjf_workspace\001-地标.利器.服饰\004文本\json1' new_path = r'D:\zjf_workspace\001-地标.利器.服饰\004文本\json' all_list = os.listdir(old_path) for i in all_list
python urllib爬虫模块使用解析

前言网络爬虫也称为网络蜘蛛.网络机器人,抓取网络的数据.其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好.一般爬取数据的目的主要是用来做数据分析,或者公司项目做数据测试,公司业务所需数据. 而数据来源可以来自于公司内部数据,第三方平台购买的数据,还可以通过网络爬虫爬取数据.python在网络爬虫方向上有着成熟的请求.解析模块,以及强大的Scrapy网络爬虫框架. 爬虫分类 1.通用网络爬虫:搜索引擎使用,遵守robots协议(君子协议) robots协议 :网站通过r
python retrying模块的使用方法详解

前言我们在写爬虫的过程中,经常遇到爬取失败的情况,这个时候我们一般会通过try块去进行重试,但是每次都写那么一堆try块,真的是太麻烦,所以今天就来说一个比较pythonic的模块,retrying. 安装 retrying模块的安装很简单直接用匹配安装即可. pip install retrying retring模块通过装饰器的形式来进行重试操作的,首先我们看一个简单的例子 from retrying import retry @retry(stop_max_attempt_number=
关于python导入模块import与常见的模块详解

0.什么是python模块?干什么的用的? Java中如果使用abs()函数,则需要需要导入Math包,同样python也是封装的,因为python提供的函数太多,所以根据函数的功能将其封装在不同的module模块中.就这样的话,pthon提供的module还是海量的,所以除非使用某个模块里的某个函数时才会将其导入程序中.所以你使用某个函数前,要先知道他在哪个module里,然后将这个模块导入当前程序,然后才能调用这个模块里的函数. 当然 python的模块分为用户自定义的和系统提供的.Pyth
Python之time模块的时间戳,时间字符串格式化与转换方法(13位时间戳)

Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块. 关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量. 时间元组(struct_time),包含9个元素. time.struct_time(tm_year=2017, tm_mon=10, tm_mday=1, tm_hour=14, tm_min=21, tm_sec=57, tm_wday=6, tm_yday=274, tm_isdst=0) 时间格式字
python fuzzywuzzy模块模糊字符串匹配详细用法

github主页导入: >>> from fuzzywuzzy import fuzz >>> from fuzzywuzzy import process 1) >>> fuzz.ratio("this is a test", "this is a test!") out 97 >>> fuzz.partial_ratio("this is a test", "
Python+FuzzyWuzzy实现模糊匹配的示例详解

目录 1. 前言 2. FuzzyWuzzy库介绍 2.1 fuzz模块 2.2 process模块 3. 实战应用 3.1 公司名称字段模糊匹配 3.2 省份字段模糊匹配 4. 全部函数代码在日常开发工作中,经常会遇到这样的一个问题:要对数据中的某个字段进行匹配,但这个字段有可能会有微小的差异.比如同样是招聘岗位的数据,里面省份一栏有的写“广西”,有的写“广西壮族自治区”,甚至还有写“广西省”……为此不得不增加许多代码来处理这些情况. 今天跟大家分享FuzzyWuzzy一个简单易用的模糊字符
Python做简单的字符串匹配详解

Python做简单的字符串匹配详解由于需要在半结构化的文本数据中提取一些特定格式的字段.数据辅助挖掘分析工作,以往都是使用Matlab工具进行结构化数据处理的建模,matlab擅长矩阵处理.结构化数据的计算,Python具有与matlab共同的特点:语法简洁.库丰富,对算法仿真来说都是一门简洁易用的语言. Python做字符串匹配相对来说上手比较容易,且具有成熟的字符串处理库re供我们使用: 在re库的帮助下,只需简单的两步就可完成匹配工作,对做数据分析/算法的工作者来说,轻松了许多: ste
python copy模块中的函数实例用法

1.copy.copy()函数可用于复制列表或字典等可变值,复制后的列表和原列表是两个独立的列表. import copy origin = [1,2,3] new = copy.copy(origin) new[0] = 0 print("origin = ",origin) print("new = ",new) 2.如果要复制的列表中有列表,则使用deepcopy()函数完全复制. import copy origin =[[1,2,3],['a','b','
Python压缩模块zipfile实现原理及用法解析

一.python压缩模块简介 python直接通过内置压缩模块可以直接进行压缩文件的创建: 内置模块 zipfile/rarfile 完成压缩文件的操作. 二. zipfile模块基础使用 2.1 对一个文件进行zip压缩 # 把当前目录的test.txt文件压缩到a.zip压缩包中 import zipfile f = zipfile.ZipFile('a.zip', 'w', zipfile.ZIP_DEFLATED) f.write('test.txt') f.close() 上述代码中:
Python语言规范之Pylint的详细用法

1.Pylint是什么 pylint是一个Python源代码中查找bug的工具,能找出错误,和代码规范的运行.也就是你的代码有Error错误的时候能找出来错误,没有错误的时候,能根据Python代码规范给你建议修改代码,让代码变更美观. 2.安装pylint pip3 install pylint 3.查找pylint的安装地址 $ which pylint /Library/Frameworks/Python.framework/Versions/3.9/bin/pylint 4.Pychar
python基础知识之try...except...的详细用法实例

目录前言 1.异常类只能来处理指定的异常情况,如果非指定异常则无法处理 2.多分支 3.万能异常Exception 4.多分支+Exception 5.异常的其他机构(try…finally语法) 6.主动触发异常(raise语句) 7.自定义异常 8.断言:assert条件 9.总结try…except 补充:多重try 总结前言我们把可能发生错误的语句放在try模块里,用except来处理异常.except可以处理一个专门的异常,也可以处理一组圆括号中的异常,如果except后没有指定
Python numpy中np.random.seed()的详细用法实例

目录引言 E.G.实验 E.G.随机数种子参数的作用补充:一个随机种子在代码中只作用一次,只作用于其定义位置的下一次随机数生成总结引言在进行机器学习和深度学习中,我们会经常用到np.random.seed(),利用随机数种子,使得每次生成的随机数相同. numpy.randn.randn(d0,d1,...,dn) randn函数根据给定维度生成大概率在(-2.58~+2.58)之间的数据 randn函数返回一个或者一组样本,具有标准正态分布 dn表示每个维度返回值为指定维度的arr
python Matplotlib模块的使用

一.Matplotlib简介与安装 Matplotlib也就是Matrix Plot Library,顾名思义,是Python的绘图库.它可与NumPy一起使用,提供了一种有效的MATLAB开源替代方案.它也可以和图形工具包一起使用,如PyQt和wxPython. 安装方式:执行命令 pip install matplotlib 一般常用的是它的子包PyPlot,提供类似MATLAB的绘图框架. 二.使用方法 1.绘制一条直线 y = 3 * x + 4,其中 x 在(-2, 2),取100个点
python Pexpect模块的使用

Pexpect简介在讲解Pexpect之前,我们需要先了解一下Expect这个脚本语言,它是由TCL语言实现的,主要用于人机交互式对话的自动化控制,可以用来完成ssh.ftp.telnet等命令行程序的自动化交互.Pexpect其实就是一个用Python语言实现的类Expect功能的模块,通过它就可以在Python中完成Expect所完成的功能. Pexpect的基本工作流程,基本可以分为以下三个步骤: 首先用spawn来执行一个程序: 然后用expect方法来等待指定的关键字,这个关键字是被

python fuzzywuzzy模块模糊字符串匹配详细用法

相关推荐

随机推荐