Python利用re模块实现简易分词(tokenization)

2025-02-01 02:22:07

一个简单的tokenizer

分词（tokenization）任务是Python字符串处理中最为常见任务了。我们这里讲解用正则表达式构建简单的表达式分词器（tokenizer），它能够将表达式字符串从左到右解析为标记(tokens)流。

给定如下的表达式字符串：

text = 'foo = 12 + 5 * 6'

我们想要将其转换为下列以序列对呈现的分词结果：

tokens = [('NAME', 'foo'), ('EQ', '='), ('NUM', '12'), ('PLUS', '+'),\
    ('NUM', '5'), ('TIMES', '*'), ('NUM', '6')]

要完成这样的分词操作，我们首先需要定义出所有可能的标记模式（所谓模式（pattern），为用来描述或者匹配/系列匹配某个句法规则的字符串，这里我们用正则表达式来做为模式），注意此处要包括空格whitespace，否则字符串中出现任何模式中没有的字符后，扫描就会停止。因为我们还需要给标记以NAME、EQ等名称，我们采用正则表达式中的命名捕获组来实现。

import re
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'
# 这里?P<NAME>表示模式名称，()表示一个正则表达式捕获组，合在一起即一个命名捕获组
EQ = r'(?P<EQ>=)'
NUM = r'(?P<NUM>\d+)' #\d表示匹配数字，+表示任意数量
PLUS = r'(?P<PLUS>\+)' #需要用\转义
TIMES = r'(?P<TIMES>\*)' #需要用\转义
WS = r'(?P<WS>\s+)' #\s表示匹配空格， +表示任意数量
master_pat = re.compile("|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))  # | 用于选择多个模式，表示"或"

接下来我们用模式对象中的scanner()方法来完成分词操作，该方法创建一个扫描对象：

scanner = master_pat.scanner(text)

然后可以用match()方法获取单次匹配结果，一次匹配一个模式：

scanner = master_pat.scanner(text)
m = scanner.match()
print(m.lastgroup, m.group()) # NAME foo
m = scanner.match()
print(m.lastgroup, m.group()) # WS

当然这样一次一次调用过于麻烦，我们可以使用迭代器来批量调用，并将单次迭代结果以具名元组形式存储

Token = namedtuple('Token', ['type', 'value'])
def generate_tokens(pat, text):
    scanner = pat.scanner(text)
    for m in iter(scanner.match, None):
        #scanner.match做为迭代器每次调用的方法，
        #None为哨兵的默认值，表示迭代到None停止
        yield Token(m.lastgroup, m.group())

for tok in generate_tokens(master_pat, "foo = 42"):
    print(tok)

最终显示表达式串"foo = 12 + 5 * 6"的tokens流为：

Token(type='NAME', value='foo')
Token(type='WS', value=' ')
Token(type='EQ', value='=')
Token(type='WS', value=' ')
Token(type='NUM', value='12')
Token(type='WS', value=' ')
Token(type='PLUS', value='+')
Token(type='WS', value=' ')
Token(type='NUM', value='5')
Token(type='WS', value=' ')
Token(type='TIMES', value='*')
Token(type='WS', value=' ')
Token(type='NUM', value='6')

过滤tokens流

接下来我们想要过滤掉空格标记，使用生成器表达式即可：

tokens = (tok for tok in generate_tokens(master_pat, "foo = 12 + 5 * 6")
          if tok.type != 'WS')
for tok in tokens:
    print(tok)

可以看到空格被成功过滤：

Token(type='NAME', value='foo')
Token(type='EQ', value='=')
Token(type='NUM', value='12')
Token(type='PLUS', value='+')
Token(type='NUM', value='5')
Token(type='TIMES', value='*')
Token(type='NUM', value='6')

注意子串匹配陷阱

tokens在正则表达式(即"|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))中顺序也非常重要。因为在进行匹配时，re模块就会按照指定的顺序对模式做匹配。故若碰巧某个模式是另一个较长模式的子串时，必须保证较长的模式在前面优先匹配。如下面分别展示正确的和错误的匹配方法：

LT = r'(?P<LT><)'
LE = r'(?P<LE><=)'
EQ = r'(?P<EQ>>=)'
master_pat = re.compile("|".join([LE, LT, EQ]))  # 正确的顺序
master_pat = re.compile("|".join([LT, LE, EQ]))  # 错误的顺序

第二种顺序的错误之处在于，这样会把'<='文本匹配为LT('<')紧跟着EQ('=')，而没有匹配为单独的LE(<=)。

我们对于“有可能”形成子串的模式也要小心，比如下面这样：

PRINT = r'(?P<PRINT>print)'
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'

master_pat = re.compile("|".join([PRINT, NAME]))  # 正确的顺序

for tok in generate_tokens(master_pat, "printer"):
    print(tok)

可以看到被print实际上成了另一个模式的子串，导致另一个模式的匹配出现了问题：

# Token(type='PRINT', value='print')
# Token(type='NAME', value='er')

更高级的语法分词，建议采用像PyParsing或PLY这样的包。特别地，对于英文自然语言文章的分词，一般被集成到各类NLP的包中（一般分为按空格拆分、处理前后缀、去掉停用词三步骤）。对于中文自然语言处理分词也有丰富的工具（比如jieba分词工具包）。

到此这篇关于Python利用re模块实现简易分词(tokenization)的文章就介绍到这了,更多相关Python 分词内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

python实现的读取网页并分词功能示例

本文实例讲述了python实现的读取网页并分词功能.分享给大家供大家参考,具体如下: 这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba 或点击此处本站下载jieba库. 代码: import requests from bs4 import BeautifulSoup import jieba # 获取html url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml&quo
Python中文分词实现方法(安装pymmseg)

本文实例讲述了Python中文分词实现方法.分享给大家供大家参考,具体如下: 在Python这pymmseg-cpp 还是十分方便的! 环境 ubuntu10.04 , python2.65 步骤: 1 下载mmseg-cpp的源代码 http://code.google.com/p/pymmseg-cpp/ 2 执行: tar -zxf pymmseg-cpp*.tar.gz //解压后得到pymmseg 目录 cd pymmseg\mmseg-cpp python build.py #生成
python re模块常见用法例举

我们在用re模块时,根据不同的使用需求,我们要挑选不同的函数来匹配.考虑到大家初学python,在对于方法的学习上,小编推荐以常见的方法为主要学习目标.本篇所带来的是re.sub和re.compile两种函数,下面就这两个部分分别展开讲解,具体内容如下展开. 1.re.sub re.sub用于替换字符串中的匹配项.下面一个例子将字符串中的空格 ' ' 替换成 '-' : import re text = "JGood is a handsome boy, he is cool, clever,
python re模块和正则表达式

一.re模块和正则表达式先来看一个例子:https://reg.jd.com/reg/person?ReturnUrl=https%3A//www.jd.com/ 这是京东的注册页面,打开页面我们就看到这些要求输入个人信息的提示.假如我们随意的在手机号码这一栏输入一个11111111111,它会提示我们格式有误.这个功能是怎么实现的呢?假如现在你用python写一段代码,类似: phone_number = input('please input your phone number : ')
Python中re模块的元字符使用小结

目录类别1:匹配单个字符的元字符方括号( [] ) 字符集点 ( . ) 通配符 \w 和 \W 单词字符匹配 \d 和 \D 字符十进制数字匹配 \s 和 \S 字符空格匹配混合使用 \w, \W, \d, \D, \s, 和\S 类别2:转义元字符反斜杠 ( \ ) 转义元字符类别3:锚点 $ 和\Z 字符串的结尾匹配项 \b 和 \B 单词匹配类别4:量词 * 匹配前面的子表达式零次或多次 + 匹配前面的子表达式一次或多次 ? 匹配前面的子表达式零次或一次 .*?.+?.??
详解Python requests模块

前言虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 "HTTP for Humans",说明使用更简洁方便. Requests 继承了urllib2的所有特性.Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码. 开源地址:https://github.com/ke
Python利用re模块实现简易分词(tokenization)

目录一个简单的tokenizer 过滤tokens流注意子串匹配陷阱一个简单的tokenizer 分词(tokenization)任务是Python字符串处理中最为常见任务了.我们这里讲解用正则表达式构建简单的表达式分词器(tokenizer),它能够将表达式字符串从左到右解析为标记(tokens)流. 给定如下的表达式字符串: text = 'foo = 12 + 5 * 6' 我们想要将其转换为下列以序列对呈现的分词结果: tokens = [('NAME', 'foo'), ('EQ
python 利用pywifi模块实现连接网络破解wifi密码实时监控网络

python 利用pywifi模块实现连接网络破解wifi密码实时监控网络,具体内容如下: import pywifi from pywifi import * import time def CrackWifi(password): wifi = pywifi.PyWiFi() iface = wifi.interfaces()[0] # 取一个无限网卡 # 是否成功的标志 isok = True if(iface.status()!=const.IFACE_CONNECTED): profi
Python利用requests模块下载图片实例代码

本文主要介绍的是关于Python利用requests模块下载图片的相关,下面话不多说了,来一起看看详细的介绍吧 MySQL中事先保存好爬取到的图片链接地址. 然后使用多线程把图片下载到本地. 示例代码: # coding: utf-8 import MySQLdb import requests import os import re from threading import Thread import datetime header = {'User-Agent': 'Mozilla/5.0
python 利用turtle模块画出没有角的方格

意思就是画四条直线,四条直线都不能相交即可. #!/usr/bin/python #coding: UTF-8 import turtle import time t = turtle.Pen() for x in range(4): t.up() t.forward(25) t.down() t.forward(100) t.up() t.forward(25) t.down() t.left(90) time.sleep(3) 执行结果见下图以上这篇python 利用turtle模块画出没
python利用datetime模块计算程序运行时间问题

**问题描述:**有如下程序输出日志,计算程序运行时间,显示花费623分钟? start time:2019-03-15 19:45:31.237894 end time:2019-03-17 06:09:01.415541 It cost 623 minutes 相关代码: import datetime s = '2019-03-15 19:45:31' s_datetime = datetime.datetime.strptime(s, '%Y-%m-%d %H:%M:%S') e = '
python利用os模块编写文件复制功能——copy()函数用法

我就废话不多说了,大家还是直接看代码吧~ #文件复制 import os src_path=r'E:\Pycharm\python100题\代码' target_path=r'E:\Pycharm\python100题\123' #封装成函数 def copy_function(src,target): if os.path.isdir(src) and os.path.isdir(target): filelist=os.listdir(src) for file in filelist: p
python利用platform模块获取系统信息

Python platform 模块 platform 模块用于查看当前操作系统的信息,来采集系统版本位数计算机类型名称内核等一系列信息. 使用方法: #coding:utf-8 import platform t=platform.system() print(t) #coding=utf-8 #platform_mode.py import platform ''' python中,platform模块给我们提供了很多方法去获取操作系统的信息如: import platform platf
python利用xlsxwriter模块操作 Excel

xlsxwriter 简介用于以 Excel 2007+ XLSX 文件格式编写文件,相较之下 PhpSpreadsheet 支持更多的格式读写. 优点文本,数字和公式写入,速度很快,占用内存小支持诸如格式设置,图像,图表,页面设置,自动过滤器,条件格式设置等功能缺点无法读取或修改现有的 Excel XLSX 文件演示其使用流程,与你使用 excel 流程一致,只不过将你主步骤分解成了一个个对象实例来操作,通过引用实现操作关联 import xlsxwriter # 1.创建工作簿
Python 利用argparse模块实现脚本命令行参数解析

study.py内容如下 #!/usr/bin/env python # -*- coding:utf-8 -*- __author__ = 'shouke' import argparse def argparseFunc(): ''' 基于argparse模块实现命令参数解析功能执行示例: python study.py -i 172.19.7.236 -p 8080 -a -r python study.py --ip 172.19.7.236 --port 7077 --auth -w
Python利用socket模块开发简单的端口扫描工具的实现

一.socket 1.简介 Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求,使主机间或者一台计算机上的进程间可以通讯. socket的工作流程 socket 采用C/S 模式,分为服务端和客户端服务端数据处理流程创建socket -> 绑定到地址和端口 -> 等待连接 -> 开始通信-> 关闭连接客户端数据处理流程创建socket -> 等待连接 -> 开始通信-> 关闭连接客

Python利用re模块实现简易分词(tokenization)

目录

一个简单的tokenizer

过滤tokens流

注意子串匹配陷阱

相关推荐

随机推荐