Python正则表达式re.compile()和re.findall()详解

2025-02-28 11:05:59

前言

在使用爬虫提取网页中的部分信息时，采用到了re.compile()与re.findall()两种方法，目的：把网页中的“某某城市土地规划表”截取并打印出来.

网页中的代码：

 <span class='tab-details'>某某城市土地规划表</span>

提取的方法：

def parse_response(html):
    pattern = re.compile('class=\'tab-details\'>(.*?)</span>',re.S)
    items = re.findall(pattern,html)
    print(items)

    return items

结果：

['某某城市土地规划表']

这里主要讲解pattern，re.compile()与re.findall()的定义及用法：

1.pattern ：pattern 属性规定用于验证输入字段的正则表达式。

2.re.compile()：compile() 方法用于在脚本执行过程中编译正则表达式，也可用于改变和重新编译正则表达式。

举例：在字符串中全局搜索 "man"，并用 "person" 替换。然后通过 compile() 方法，改变正则表达式，用 "person" 替换 "man" 或 "woman"，：

<script type="text/javascript">
var str="Every man in the world! Every woman on earth!";

patt=/man/g;
str2=str.replace(patt,"person");
//用person取代man
document.write(str2+"<br />");

patt=/(wo)?man/g;
patt.compile(patt);
str2=str.replace(patt,"person");
//用person取代man或者woman
document.write(str2);

</script>

输出：（可见第一行中的man都被person取代，出现了woperson,第二行的的man和woman也被person取代，只有person，没有其他奇奇怪怪的字符串）

Every person in the world! Every woperson on earth!
Every person in the world! Every person on earth!

3.re.findall()：额，这个最难搞，主要是为了讲解（.*？)

re.findall()函数是返回某种形式(比如String)中所有与pattern匹配的全部字符串,返回形式为数组。

下面是findall()函数的两种表示形式:(上面的代码采取的便是第二种形式）：

import re
kk = re.compile(r'\d+')
kk.findall('one1two2three3four4')
#[1,2,3,4]

#注意此处findall()的用法，可传两个参数;
kk = re.compile(r'\d+')
re.findall(kk,"one123")
#[1,2,3]

下面的是常用的正则表达式：

import re

str = 'aabbabaabbaa'

# 一个"."就是匹配除 \n (换行符)以外的任意一个字符
print(re.findall(r'a.b',str))#['aab', 'aab']

# *前面的字符出现0次或以上
print(re.findall(r'a*b',str))#['aab', 'b', 'ab', 'aab', 'b']

# 贪婪，匹配从.*前面为开始到后面为结束的所有内容
print(re.findall(r'a.*b',str))#['aabbabaabb']

# 非贪婪，遇到开始和结束就进行截取，因此截取多次符合的结果，中间没有字符也会被截取
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']

# 非贪婪，与上面一样，只是与上面的相比多了一个括号，只保留括号的内容
print(re.findall(r'a(.*?)b',str))#['a', '', 'a']

str = '''aabbab
         aabbaa
         bb'''     #后面多加了2个b

# 没有把最后一个换行的aab算进来
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']

# re.S不会对\n进行中断
print(re.findall(r'a.*?b',str,re.S))#['aab', 'ab', 'aab', 'aa\n         b']

注意'.*?'是对它的前后部分作为开始结束部分进行截取，而'(.*?)'也是把其前后作为开始结束，但是只截取括号部分，不包含开始结束部分！！！（同时在对前后部分的选择时要注意特征明确点，就是与众不同的的嘛，防止截取出的是其他部分啊）

re.findall中参数re.S的意义：

1.字符串变为（后面多加了2个b）

str = '''aabbab
         aabbaa
         bb'''

2.参数无re.S，没有把最后一个换行的aab算进来

print(re.findall(r'a.*?b',str))
#['aab', 'ab', 'aab']

3.参数有re.S，不会对\n进行中断

print(re.findall(r'a.*?b',str,re.S))
#['aab', 'ab', 'aab', 'aa\n         b']

在我们一开始的代码中就有re.s,因为在爬取网页的内容时是按照一个一个块的来爬取，可以理解为并列部分，会存在/n分行符。

def parse_response(html):
    pattern = re.compile('class=\'tab-details\'>(.*?)</span>',re.S)
    items = re.findall(pattern,html)
    print(items)

    return items

参考：

1.HTML input pattern 属性

2.Pattern用法(正则表达式)

3.JavaScript compile() 方法

4.Python 正则表达re模块之findall()详解

总结

到此这篇关于Python正则表达式re.compile()和re.findall()的文章就介绍到这了,更多相关Python正则re.compile()和re.findall()内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python3中的re.findall()方法及re.compile()

目录 re.findall()方法及re.compile() 1.例子 2.re.compile()方法 3.在使用findall()方法时的“坑” 正则表达式findall函数问题 re.findall()方法及re.compile() re.findall()在字符串中找到正则表达式所匹配的所有子串,并返回一个列表:如果没有找到匹配的,则返回空列表. 返回结果是列表类型,需要遍历一下才能依次获取每组内容. findall(patern, string, flags=0) pattern :
Python正则表达式re.compile()和re.findall()详解

目录前言网页中的代码: 提取的方法: re.findall中参数re.S的意义: 参考: 总结前言在使用爬虫提取网页中的部分信息时,采用到了re.compile()与re.findall()两种方法,目的:把网页中的“某某城市土地规划表”截取并打印出来. 网页中的代码: <span class='tab-details'>某某城市土地规划表</span> 提取的方法: def parse_response(html): pattern = re.compile('class
Python正则表达式中flags参数的实例详解

目录 flags参数忽略大小写多行模式匹配任何字符补充:正则表达式中的flags 总结 flags参数 re.I IGNORECASE 忽略字母大小写 re.L LOCALE 影响 “w, “W, “b, 和 “B,这取决于当前的本地化设置. re.M MULTILINE 使用本标志后,‘^’和‘$’匹配行首和行尾时,会增加换行符之前和之后的位置. re.S DOTALL 使 “.” 特殊字符完全匹配任何字符,包括换行:没有这个标志, “.
Python正则表达式的七个使用范例详解

作为一个概念而言,正则表达式对于Python来说并不是独有的.但是,Python中的正则表达式在实际使用过程中还是有一些细小的差别. 本文是一系列关于Python正则表达式文章的其中一部分.在这个系列的第一篇文章中,我们将重点讨论如何使用Python中的正则表达式并突出Python中一些独有的特性. 我们将介绍Python中对字符串进行搜索和查找的一些方法.然后我们讲讨论如何使用分组来处理我们查找到的匹配对象的子项. 我们有兴趣使用的Python中正则表达式的模块通常叫做're'. >>>
Python入门之三角函数sin()函数实例详解

描述 sin()返回的x弧度的正弦值. 语法以下是sin()方法的语法: importmath math.sin(x) 注意:sin()是不能直接访问的,需要导入math模块,然后通过math静态对象调用该方法. 参数 x--一个数值. 返回值返回的x弧度的正弦值,数值在-1到1之间. 实例以下展示了使用sin()方法的实例: #!/usr/bin/python import math print "sin(3) : ", math.sin(3) print "sin(
python获取网络图片方法及整理过程详解

这篇文章主要介绍了python获取网络图片方法及整理过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下方式1 使用urllib库 import urllib.request import os ,stat url = "https://cn.bing.com/th?id=OHR.Lidong2019_ZH-CN0761273672_1920x1080.jpg" try: urllib.request.urlretrieve(ur
Python爬虫进阶之Beautiful Soup库详解

一.Beautiful Soup库简介 BeautifulSoup4 是一个 HTML/XML 的解析器,主要的功能是解析和提取 HTML/XML 的数据.和 lxml 库一样. lxml 只会局部遍历,而 BeautifulSoup4 是基于 HTML DOM 的,会加载整个文档,解析整个 DOM 树,因此内存开销比较大,性能比较低. BeautifulSoup4 用来解析 HTML 比较简单,API 使用非常人性化,支持 CSS 选择器,是 Python 标准库中的 HTML 解析器,也支
正则表达式量词与贪婪的使用详解

目录 0.写在前面 1.量词 2.贪婪模式前传 2.1 使用 a+ 进行匹配 2.2 使用 a* 进行匹配 3.贪婪模式 4.非贪婪模式 5.独占模式 5.1 贪婪匹配过程 5.2 非贪婪匹配过程 5.3 独占匹配过程 6.写在最后 0.写在前面在上一篇文章中,我们学习了正则的一些基础元字符,相信大家都已经忘却的差不多了,可以点击上面的链接再温习下. 今天我们一起来学习下正则中量词的三种匹配模式,贪婪模式.非贪婪模式.独占模式,这些模式会改变正则中量词的匹配行为,是每次贪婪的匹配到更多呢,还是
python strip() 函数和 split() 函数的详解及实例

python strip() 函数和 split() 函数的详解及实例一直以来都分不清楚strip和split的功能,实际上strip是删除的意思:而split则是分割的意思.因此也表示了这两个功能是完全不一样的,strip可以删除字符串的某些字符,而split则是根据规定的字符将字符串进行分割.下面就详细说一下这两个功能, 1 Python strip()函数介绍函数原型声明:s为字符串,rm为要删除的字符序列 s.strip(rm) 删除s字符串中开头.结尾处,位于 r
Python编程使用NLTK进行自然语言处理详解

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向.自然语言工具箱(NLTK,NaturalLanguageToolkit)是一个基于Python语言的类库,它也是当前最为流行的自然语言编程与开发工具.在进行自然语言处理研究和应用时,恰当利用NLTK中提供的函数可以大幅度地提高效率.本文就将通过一些实例来向读者介绍NLTK的使用. NLTK NaturalLanguageToolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库. NLTK是一个开源的项目,包含:P
基于python内置函数与匿名函数详解

内置函数 Built-in Functions abs() dict() help() min() setattr() all() dir() hex() next() slice() any() divmod() id() object() sorted() ascii() enumerate() input() oct() staticmethod() bin() eval() int() open() str() bool() exec() isinstance() pow() super

Python正则表达式re.compile()和re.findall()详解

目录

前言

网页中的代码：

提取的方法：

re.findall中参数re.S的意义：

参考：

总结

相关推荐

随机推荐