小众实用的Python 爬虫库RoboBrowser

2025-03-03 09:15:54

1. 前言

大家好，我是安果！

今天推荐一款小众轻量级的爬虫库：RoboBrowser

RoboBrowser，Your friendly neighborhood web scraper！由纯 Python 编写，运行无需独立的浏览器，它不仅可以做爬虫，还可以实现 Web 端的自动化

项目地址：

https://github.com/jmcarp/robobrowser

2. 安装及用法

在实战之前，我们先安装依赖库及解析器

PS：官方推荐的解析器是「lxml」

# 安装依赖
pip3 install robobrowser

# lxml解析器（官方推荐）
pip3 install lxml

RoboBrowser 常见的 2 个功能为：

模拟表单 Form 提交
网页数据爬取

使用 RoboBrowser 进行网页数据爬取，常见的 3 个方法如下：

find

查询当前页面满足条件的第一个元素

find_all

查询当前页面拥有共同属性的一个列表元素

select

通过 CSS 选择器，查询页面，返回一个元素列表

需要指出的是，RoboBrowser 依赖于 BS4，所以它的使用方法和 BS4 类似

3. 实战一下

我们以「百度搜索及爬取搜索结果列表」为例

3-1 打开目标网站

首先，我们实例化一个 RoboBrowser 对象

from time import sleep

from robobrowser import RoboBrowser

home_url = 'https://baidu.com'

# parser: 解析器，HTML parser; used by BeautifulSoup
# 官方推荐：lxml
rb = RoboBrowser(history=True, parser='lxml')

# 打开目标网站
rb.open(home_url)

然后，使用 RoboBrowser 实例对象中的 open() 方法打开目标网站

3-2 自动化表单提交

首先，使用 RoboBrowser 实例对象获取网页中的表单 Form

然后，通过为表单中的输入框赋值模拟输入操作

最后，使用 submit_form() 方法进行表单提交，模拟一次搜索操作

# 获取表单对象
bd_form = rb.get_form()

print(bd_form)

bd_form['wd'].value = "AirPython"

# 提交表单，模拟一次搜索
rb.submit_form(bd_form)

3-3 数据爬取

分析搜索页面的网页结构，利用 RoboBrowser 中的 select() 方法匹配出所有的搜索列表元素

遍历搜索列表元素，使用 find() 方法查询出每一项的标题及 href 链接地址

# 查看结果
result_elements = rb.select(".result")

# 搜索结果
search_result = []

# 第一项的链接地址
first_href = ''

for index, element in enumerate(result_elements):
 title = element.find("a").text
 href = element.find("a")['href']
 search_result.append(title)

 if index == 0:
  first_href = element.find("a")
  print('第一项地址为:', href)

print(search_result)

最后，使用 RoboBrowser 中的 follow_link() 方法模拟一下「点击链接，查看网页详情」的操作

# 跳转到第一个链接
rb.follow_link(first_href)

# 获取历史
print(rb.url)

需要注意的是，follow_link() 方法的参数为带有 href 值的 a 标签

4. 最后

文中结合百度搜索实例，使用 RoboBrowser 完成了一次自动化及爬虫操作

相比 Selenium、Helium 等，RoboBrowser 更轻量级，不依赖独立的浏览器及驱动

如果想处理一些简单的爬虫或 Web 自动化，RoboBrowser 完全够用；但是面对一些复杂的自动化场景，更建议使用 Selenium、Pyppeteer、Helium 等

以上就是Python 爬虫库RoboBrowser的使用简介的详细内容，更多关于Python 爬虫库RoboBrowser的资料请关注我们其它相关文章！

Python爬虫库requests获取响应内容、响应状态码、响应头

首先在程序中引入Requests模块 import requests 一.获取不同类型的响应内容在发送请求后,服务器会返回一个响应内容,而且requests通常会自动解码响应内容 1.文本响应内容获取文本类型的响应内容 r = requests.get('https://www.baidu.com') r.text # 通过文本的形式获取响应内容 '<!DOCTYPE html>\r\n<html> <head><m
python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例

使用Python爬虫库requests多线程抓取猫眼电影TOP100思路: 查看网页源代码抓取单页内容正则表达式提取信息猫眼TOP100所有信息写入文件多线程抓取运行平台:windows Python版本:Python 3.7. IDE:Sublime Text 浏览器:Chrome浏览器 1.查看猫眼电影TOP100网页原代码按F12查看网页源代码发现每一个电影的信息都在"<dd></dd>"标签之中. 点开之后,信息如下: 2.抓取单页内容在浏
python3第三方爬虫库BeautifulSoup4安装教程

Python3安装第三方爬虫库BeautifulSoup4,供大家参考,具体内容如下在做Python3爬虫练习时,从网上找到了一段代码如下: #使用第三方库BeautifulSoup,用于从html或xml中提取数据 from bs4 import BeautifulSoup 自己实践后,发现出现了错误,如下所示: 以上错误提示是说没有发现名为"bs4"的模块.即"bs4"模块未安装. 进入Python安装目录,以作者IDE为例, 控制台提示第三
Python爬虫库BeautifulSoup的介绍与简单使用实例

一.介绍 BeautifulSoup库是灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便地实现网页信息的提取. Python常用解析库解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库.执行速度适中 .文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文容错能力差 lxml HTML 解析器 BeautifulSoup(markup,
python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例

使用python爬虫库requests,urllib爬取今日头条街拍美图代码均有注释 import re,json,requests,os from hashlib import md5 from urllib.parse import urlencode from requests.exceptions import RequestException from bs4 import BeautifulSoup from multiprocessing import Pool #请求索引页 d
Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释

一.Tag(标签)对象 1.Tag对象与XML或HTML原生文档中的tag相同. from bs4 import BeautifulSoup soup = BeautifulSoup('Extremely bold','lxml') tag = soup.b type(tag) bs4.element.Tag 2.Tag的Name属性每个tag都有自己的名字,通过.name来获取 tag.name 'b' tag.
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解

下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最基础的内容 html_doc = """ <html><head><title>The Dormouse's story</title></head> The Dormouse's story
使用Python爬虫库requests发送请求、传递URL参数、定制headers

首先我们先引入requests模块 import requests 一.发送请求 r = requests.get('https://api.github.com/events') # GET请求 r = requests.post('http://httpbin.org/post', data = {'key':'value'}) # POST请求 r = requests.put('http://httpbin.org/put', data = {'key':'value'}) # PUT请
python爬虫库scrapy简单使用实例详解

最近因为项目需求,需要写个爬虫爬取一些题库.在这之前爬虫我都是用node或者php写的.一直听说python写爬虫有一手,便入手了python的爬虫框架scrapy. 下面简单的介绍一下scrapy的目录结构与使用: 首先我们得安装scrapy框架 pip install scrapy 接着使用scrapy命令创建一个爬虫项目: scrapy startproject questions 相关文件简介: scrapy.cfg: 项目的配置文件 questions/: 该项目的python模块.之
使用Python爬虫库requests发送表单数据和JSON数据

导入Python爬虫库Requests import requests 一.发送表单数据要发送表单数据,只需要将一个字典传递给参数data payload = {'key1': 'value1', 'key2': 'value2'} r = requests.post("http://httpbin.org/post", data=payload) print(r.text) {"args":{},"data":"",&qu
常用python爬虫库介绍与简要说明

这个列表包含与网页抓取和数据处理的Python库 python网络库通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络库(绑定libcurl). urllib3 – Python HTTP库,安全连接池.支持文件post.可用性高. httplib2 – 网络库. RoboBrowser – 一个简单的.极具Python风格的Python库,无需独立的浏览器即可浏览网页. MechanicalSoup