python用match()函数爬数据方法详解

2025-03-30 22:33:07

match()函数的使用。以及从文本中提取数据的方法。在学习re模块的相关函数前应了解正则表达式的特殊字符

准备一个要爬取的文本文档：

直接从某个网页拷贝一份代码，粘贴在一个txt文件里，以供学习。

方法很简单，比如打开百度视频的热门电影网页，右键点击查看源代码，然后复制，粘贴到一个txt文件里，保存到工作目录下。

有4000多行。

re.match(pattern, string, flags=0)

①pattern，是正则表达式。string，被检验的字符串。

②flags是可选参数，此标记是用来对patten的补充。例如：re.S，可以让正则表达式中的点匹配换行符\n。(如图片中，可以看帮助文档，查看有哪些标记）

③ match()函数由左向右检验string，若匹配到正则表达式，返回一个匹配对象，否则就返回None.

④re.match() 匹配字符串的开始位置，而不匹配每行开始。

----所以才将网页的每行放入列表，以供match函数对每行操作。

比如要在文档中，提取电影的网址，和电影名。

①复制那行文本作为表达式，

②将要提取的网址和和电影名替换为(.*)，这只是暂时的，可以在接下来的代码中调整。

读取文本：

①用with open（）语句读取；

②用readlines，一次性读完，返回一个列表，元素是文本的每一行。

with open('aa.txt','r',encoding='utf-8') as f:
  lines=f.readlines()

①判断每行是否返回了匹配的对象，

②接收匹配对象，并用groups()提取表达式内括号的内容；

for line in lines:
  if re.match(pat,line):   #判断过滤掉返回None的行，
    ret=re.match(pat,line) #接收匹配对象
    print(ret.groups())

发现有不符合的行，稍加修改，过滤掉不符合的行：

因为，不合的行都有空格（或其他字符）。可以给第二子组的点 . 换成非[^ ]；非空格的任意字符，意思就是不要有空格的。

用f-string格式化对输出的文本稍加修饰，使用group(1)，group(2);

可以将这段代码封装为一个函数。爬取百度视频的其他栏目。

测试: 百度视频的电影，电视剧，和动漫等栏目，网页上的格式基本相同，所以用上面的函数直接套用。

打开百度视频的动漫，复制源代码，存为bb.txt。

同样可以爬取网址和视频名称。

以上仅是练习match()函数的例子。

以上就是关于python如何用match()函数爬数据的全部内容，感谢大家的阅读和对我们的支持。

Python中正则表达式match()、search()函数及match()和search()的区别详解

match()和search()都是python中的正则匹配函数,那这两个函数有何区别呢? match()函数只检测RE是不是在string的开始位置匹配, search()会扫描整个string查找匹配, 也就是说match()只有在0位置匹配成功的话才有返回,如果不是开始位置匹配成功的话,match()就返回none 例如: #! /usr/bin/env python # -*- coding=utf-8 -*- import re text = 'pythontab' m = re.ma
python用match()函数爬数据方法详解

match()函数的使用.以及从文本中提取数据的方法.在学习re模块的相关函数前应了解正则表达式的特殊字符准备一个要爬取的文本文档: 直接从某个网页拷贝一份代码,粘贴在一个txt文件里,以供学习. 方法很简单,比如打开百度视频的热门电影网页,右键点击查看源代码,然后复制,粘贴到一个txt文件里,保存到工作目录下. 有4000多行. re.match(pattern, string, flags=0) ①pattern,是正则表达式.string,被检验的字符串. ②flags是可选参数,此标
python根据用户需求输入想爬取的内容及页数爬取图片方法详解

本次小编向大家介绍的是根据用户的需求输入想爬取的内容及页数. 主要步骤: 1.提示用户输入爬取的内容及页码. 2.根据用户输入,获取网址列表. 3.模拟浏览器向服务器发送请求,获取响应. 4.利用xpath方法找到图片的标签. 5.保存数据. 代码用面向过程的形式编写的. 关键字:requests库,xpath,面向过程现在就来讲解代码书写的过程: 1.导入模块 import parsel # 该模块主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配 import req
对python函数签名的方法详解

函数签名对象,表示调用函数的方式,即定义了函数的输入和输出. 在Python中,可以使用标准库inspect的一些方法或类,来操作或创建函数签名. 获取函数签名及参数使用标准库的signature方法,获取函数签名对象:通过函数签名的parameters属性,获取函数参数. # 注意是小写的signature from inspect import signature def foo(value): return value # 获取函数签名 foo_sig = signature(foo)
python更新数据库中某个字段的数据(方法详解)

连接数据库基本操作,我把每一步的操作是为什么给大家注释一下,老手自行快进. 请注意这是连接数据库操作,还不是更新. import pymysql #导包 #连接数据库 db = pymysql.connect(host='localhost', user='用户名', password='数据库密码', port=3306, db='你的数据库名字') #定义游标 cursor = db.cursor() #sql语句 sql = 'select * from students;' cursor
对python3 Serial 串口助手的接收读取数据方法详解

其实网上已经有许多python语言书写的串口,但大部分都是python2写的,没有找到一个合适的python编写的串口助手,只能自己来写一个串口助手,由于我只需要串口能够接收读取数据就可以了,故而这个串口助手只实现了数据的接收读取. 创建串口助手首先需要创建一个类,重构类的实现过程如下: #coding=gb18030 import threading import time import serial class ComThread: def __init__(self, Port='COM3
对python pandas读取剪贴板内容的方法详解

我使用的Python3.5,32版本win764位系统,pandas0.19版本,使用df=pd.read_clipboard()的时候读不到数据,百度查找解决方法,找到了一个比较靠谱的打开site-packages\pandas\io\clipboard.py 在 text = clipboard_get() 后面一行加入这句: text = text.decode('UTF-8') 保存,然后就可以使用了 df=pd.read_clipboard() #变成正常的了下次可以在其他地方复
对Python闭包与延迟绑定的方法详解

Python闭包可能会在面试或者是工作中经常碰到,而提到Python的延迟绑定,肯定就离不开闭包的理解,今天总结下关于闭包的概念以及一个延迟绑定的面试题. Python闭包 1.什么是闭包,闭包必须满足以下3个条件: 必须是一个嵌套的函数. 闭包必须返回嵌套函数. 嵌套函数必须引用一个外部的非全局的局部自由变量. 举个栗子 # 嵌套函数但不是闭包 def nested(): def nst(): print('i am nested func %s' % nested.__name__) ns
使用 Python 读取电子表格中的数据实例详解

Python 是最流行.功能最强大的编程语言之一.由于它是自由开源的,因此每个人都可以使用.大多数 Fedora 系统都已安装了该语言.Python 可用于多种任务,其中包括处理逗号分隔值(CSV)数据.CSV文件一开始往往是以表格或电子表格的形式出现.本文介绍了如何在 Python 3 中处理 CSV 数据. CSV 数据正如其名.CSV 文件按行放置数据,数值之间用逗号分隔.每行由相同的字段定义.简短的 CSV 文件通常易于阅读和理解.但是较长的数据文件或具有更多字段的数据文件可能很难用肉眼
python中Django文件上传方法详解

Django上传文件最简单最官方的方法 1.配置media路径在settings.py中添加如下代码: MEDIA_ROOT = os.path.join(BASE_DIR, 'media') 2.定义数据表 import os from django.db import models from django.utils.timezone import now as timezone_now def upload_to(instance, filename): now = timezo
Python必备技巧之字符数据操作详解

目录字符串操作字符串 + 运算符字符串 * 运算符字符串 in 运算符内置字符串函数字符串索引字符串切片字符串切片中的步幅将变量插入字符串修改字符串内置字符串方法 bytes对象定义文字bytes对象 bytes使用内置bytes()函数定义对象 bytes对象操作,操作参考字符串. bytearray对象,Python 支持的另一种二进制序列类型字符串操作字符串 + 运算符 +运算符用于连接字符串,返回一个由连接在一起的操作数组成的字符串. >>> s =

python用match()函数爬数据方法详解

相关推荐

随机推荐