详解pyppeteer(python版puppeteer)基本使用

2025-02-25 12:17:49

一、前言

以前使用selenium的无头浏览器，自从phantomjs2016后慢慢不更新了之后，selenium也开始找下家，这时候谷歌的chrome率先搞出来无头浏览器并开放了各种api，随后firefox也开始做。

现在selenium的测试也都支持这两个浏览器的无头模式了，只需要在引入的时候配置一下就可以了。之所以要采用谷歌chrome官方无头框架puppeteer的python版本pyppeteer，是因为有些网页是可以检测到是否是使用了selenium。并且selenium所谓的保护机制不允许跨域cookies保存以及登录的时候必须先打开网页然后后加载cookies再刷新的方式很不友好。

二、pyppeteer

github地址：https://miyakogi.github.io/pyppeteer/

pyppeteer这个项目是非官方的，是基于谷歌官方puppeteer的python版本。

注意：本来chrome就问题多多，puppeteer也是各种坑，加上pyppeteer是基于前者的改编python版本，也就是产生了只要前两个有一个有bug，那么pyppeteer就会原封不动的继承下来，本来这没什么，但是现在遇到的问题就是pyppeteer这个项目从18年9月份之后就没更新过了，前两者都在不断的更新迭代，而pyppeteer一直不更新，导致很多bug根本没人修复。

遇到的错误:

1）pyppeteer.errors.NetworkError: Protocol error Network.getCookies: Target close
控制访问指定url之后await page.goto(url)，会遇到上面的错误，如果这时候使用了sleep之类的延时也会出现这个错误或者类似的time out。

这个问题是puppeteer的bug，但是对方已经修复了，而pyppeteer迟迟没更新，就只能靠自己了，搜了很多人的文章，例如：https://github.com/miyakogi/pyppeteer/issues/171 ，但是我按照这个并没有成功。
也有人增加一个函数，但调用这个参数依然没解决问题。

async def scroll_page(page):
  cur_dist = 0
  height = await page.evaluate("() => document.body.scrollHeight")
  while True:
    if cur_dist < height:
      await page.evaluate("window.scrollBy(0, 500);")
      await asyncio.sleep(0.1)
      cur_dist += 500
    else:
      break

可以把python第三方库websockets版本7.0改为6.0就可以了，亲测可用。

pip uninstall websockets #卸载websockets
pip install websockets==6.0 #指定安装6.0版本

2）chromium浏览器多开页面卡死问题
解决这个问题的方法就是浏览器初始化的时候添加'dumpio':True。

3）浏览器窗口很大，内容显示很小

上面的问题是需要设置浏览器显示大小，默认就是无法正常显示。可以看到页面左侧右侧都是空白，网站内容并没有完整铺满chrome.

browser = await launch({'headless': False,'dumpio':True, 'autoClose':False,'args': ['--no-sandbox', '--window-size=1366,850']})
await page.setViewport({'width':1366,'height':768})

通过上面设置Windows-size和Viewport大小来实现网页完整显示。

但是对于那种向下无限加载的长网页这种情况如果浏览器是可见状态会显示不全，针对这种情况的解决方法就是复制当前网页新开一个标签页粘贴进去就正常了

三、实际项目示例

import asyncio
from pyppeteer import launch
import time

async def main():exepath = 'C:/Users/tester02/AppData/Local/Google/Chrome/Application/chrome.exe'
  browser = await launch({'executablePath': exepath, 'headless': False, 'slowMo': 30})
  page = await browser.newPage()
  await page.setViewport({'width': 1366, 'height': 768})
  await page.goto('http://192.168.2.66')
  await page.type("#Login_Name_Input", "test02")
  await page.type("#Login_Password_Input", "12345678", )
  await page.waitFor(1000)
  await page.click("#Login_Login_Btn")
  await page.waitFor(3000)
  await browser.close()

asyncio.get_event_loop().run_until_complete(main())

import asyncio
import time
from pyppeteer import launch

async def gmailLogin(username, password, url):
  #'headless': False如果想要浏览器隐藏更改False为True
  # 127.0.0.1:1080为代理ip和端口，这个根据自己的本地代理进行更改，如果是vps里或者全局模式可以删除掉'--proxy-server=127.0.0.1:1080'
  browser = await launch({'headless': False, 'args': ['--no-sandbox', '--proxy-server=127.0.0.1:1080']})
  page = await browser.newPage()
  await page.setUserAgent(
    'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36')

  await page.goto(url)

  # 输入Gmail
  await page.type('#identifierId', username)
  # 点击下一步
  await page.click('#identifierNext > content')
  page.mouse # 模拟真实点击
  time.sleep(10)
  # 输入password
  await page.type('#password input', password)
  # 点击下一步
  await page.click('#passwordNext > content > span')
  page.mouse # 模拟真实点击
  time.sleep(10)
  # 点击安全检测页面的DONE
  # await page.click('div > content > span')#如果本机之前登录过，并且page.setUserAgent设置为之前登录成功的浏览器user-agent了，
  # 就不会出现安全检测页面，这里如果有需要的自己根据需求进行更改，但是还是推荐先用常用浏览器登录成功后再用python程序进行登录。

  # 登录成功截图
  await page.screenshot({'path': './gmail-login.png', 'quality': 100, 'fullPage': True})
  #打开谷歌全家桶跳转，以Youtube为例
  await page.goto('https://www.youtube.com')
  time.sleep(10)

if __name__ == '__main__':
  username = '你的gmail包含@gmail.com'
  password = r'你的gmail密码'
  url = 'https://gmail.com'
  loop = asyncio.get_event_loop()
  loop.run_until_complete(gmailLogin(username, password, url))
# 代码由三分醉编写，网址www.sanfenzui.com，参考如下文章：
# https://blog.csdn.net/Chen_chong__/article/details/82950968

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

爬虫利器Puppeteer实战

Puppeteer 介绍 Puppeteer 翻译是操纵木偶的人,利用这个工具,我们能做一个操纵页面的人. Puppeteer 是一个 Nodejs 的库,支持调用 Chrome的API来操纵Web ,相比较 Selenium 或是 PhantomJs ,它最大的特点就是它的操作 Dom 可以完全在内存中进行模拟既在 V8 引擎中处理而不打开浏览器,而且关键是这个是Chrome团队在维护,会拥有更好的兼容性和前景. Puppeteer 用处利用网页生成PDF.图片爬取SPA应用,并生成预渲染
深入理解Puppeteer的入门教程和实践

出现的背景 Chrome59(linux.macos). Chrome60(windows)之后,Chrome自带headless(无界面)模式很方便做自动化测试或者爬虫.但是如何和headless模式的Chrome交互则是一个问题.通过启动Chrome时的命令行参数仅能实现简易的启动时初始化操作.Selenium.Webdriver等是一种解决方案,但是往往依赖众多,不够扁平. Puppeteer是谷歌官方出品的一个通过DevTools协议控制headless Chrome的Node库.可以通
详解Puppeteer前端自动化测试实践

起因目前我们在持续开发着一个几十个页面,十万+行代码的项目,随着产品的更迭,总会出现这样的问题.在对某些业务逻辑或者功能进行添加或者修改的时候(尤其是通用逻辑),这些通用的逻辑或者组件往往会牵扯到一些其他地方的问题.由于测试人员受限,我们很难在完成一个模块单元后,对所有功能重新测试一遍. 同时,由于环境及数据的区别,(以及在开发过程中对代码完备性的疏忽),代码会在某些特殊数据的解析和和展示上出现问题,在开发和测试中很难去发现.总的来说,我们希望有一个这样的工具,帮我们解决上述几个问题: 在进行
puppeteer库入门初探

puppeteer 是一个Chrome官方出品的headless Chrome node库.它提供了一系列的API, 可以在无UI的情况下调用Chrome的功能, 适用于爬虫.自动化处理等各种场景根据官网上描述,puppeteer 具有以下作用: 生成页面截图和 PDF 自动化表单提交.UI 测试.键盘输入等创建一个最新的自动化测试环境.使用最新的 JavaScript 和浏览器功能,可以直接在最新版本的 Chrome 中运行测试. 捕获站点的时间线跟踪,以帮助诊断性能问题. 爬取 SPA
Puppeteer 爬取动态生成的网页实战

Puppeteer 相关介绍与安装不过多介绍,可通过以下链接进行学习一.Puppeteer 开源地址英文文档中文社区二.爬取动态网页 1. 需求首先,了解下我们的需求: 爬取zoomcharts文档中 Net Chart 目录下所有访问连接对应的页面,并保存到本地 2. 研究 ZoomCharts 文档页面结构首先,我们得研究透 ZoomCharts 页面如何加载,以及左侧导航的 DOM 树结构,才好进行下一步操作页面首次加载页面首次加载,左侧导航第一个目录 Introducti
使用puppeteer破解极验的滑动验证码

基本的流程: 1. 打开前端网,点击登录. 2. 填写账号,密码. 3. 点解验证按钮,通过滑动验证,最后成功登陆. 代码实现: github上可以checkout. 具体代码如下所示: run.js const puppeteer = require('puppeteer'); const devices = require('puppeteer/DeviceDescriptors'); const iPhone = devices['iPhone 6 Plus']; let timeout
详解Puppeteer 入门教程

1.Puppeteer 简介 Puppeteer 是一个node库,他提供了一组用来操纵Chrome的API, 通俗来说就是一个 headless chrome浏览器 (当然你也可以配置成有UI的,默认是没有的).既然是浏览器,那么我们手工可以在浏览器上做的事情 Puppeteer 都能胜任, 另外,Puppeteer 翻译成中文是"木偶"意思,所以听名字就知道,操纵起来很方便,你可以很方便的操纵她去实现: 1) 生成网页截图或者 PDF 2) 高级爬虫,可以爬取大量异步渲染内容的网页
Puppeteer环境搭建的详细步骤

简介 Puppeteer是Google开发并开源的一款工具,可用代码驱动浏览器操作. 由于诸多优秀的特性,Puppeteer常被用在爬虫与自动化测试上.详细介绍参见官方 README. Puppeteer本身是个NodeJS的库,自动化脚本也需要使用NodeJS编写,如果对JS不了解建议先学习JavaScript基础语法,或者使用Selenium等其他工具去实现. 对于一个陌生的工具,应当先检查是否适合自己,再去尝试使用,切莫盲目从众. Puppeteer 用处利用网页生成PDF.图片爬取S
详解pyppeteer(python版puppeteer)基本使用

一.前言以前使用selenium的无头浏览器,自从phantomjs2016后慢慢不更新了之后,selenium也开始找下家,这时候谷歌的chrome率先搞出来无头浏览器并开放了各种api,随后firefox也开始做. 现在selenium的测试也都支持这两个浏览器的无头模式了,只需要在引入的时候配置一下就可以了.之所以要采用谷歌chrome官方无头框架puppeteer的python版本pyppeteer,是因为有些网页是可以检测到是否是使用了selenium.并且selenium所谓的保护
详解用Python进行时间序列预测的7种方法

数据准备数据集(JetRail高铁的乘客数量)下载. 假设要解决一个时序问题:根据过往两年的数据(2012 年 8 月至 2014 年 8月),需要用这些数据预测接下来 7 个月的乘客数量. import pandas as pd import numpy as np import matplotlib.pyplot as plt df = pd.read_csv('train.csv') df.head() df.shape 依照上面的代码,我们获得了 2012-2014 年两年每个小时的乘
详解查看Python解释器路径的两种方式

进入python的安装目录, 查看python解释器进入bin目录 # ls python(看一下是否有python解释器版本) # pwd (查看当前目录) 复制当前目录即可 1. 通过脚本查看运行以下脚本,或者进入交互模式手动输入即可. import sys import os print('当前 Python 解释器路径:') print(sys.executable) r""" 当前 Python 解释器路径: C:\Users\jpch89\AppData\Lo
详解IDEA社区版(Community)和付费版(UItimate)的区别

推荐阅读: IntelliJ IDEA 2020最新激活码(亲测有效,可激活至 2089 年) 最新idea2020注册码永久激活(激活到2100年) IntelliJ IDEA 2020.2.3永久破解激活教程(亲测有效) 2020.2 IntelliJ IDEA激活与IDEA2020.2破解详细教程比对类型 Ultimate(终极版,付费) Community(社区版,免费) 语言支持 Java Java Groovy Groovy Kotlin Kotlin Scala(通过插件) Sc
详解用Python把PDF转为Word方法总结

先讲一下为啥要写这个文章,网上其实很多这种PDF转化的代码和软件.我一直想用Python做,但是网上搜到的代码很多都不能用,很多是2.7版本的代码,再就是PDF需要用到的库在导入的时候,很多的报错,解决起来特别费劲,而且自从2021年初以来,似乎网上很少有关PDF转化的代码出现了.我在研究了很多代码和pdfminer的用法后,总结了几个方法,目前这几种方法可以解决大多数格式的转化,后面我也专门放了提取PDF表格的代码,文末有高效的免费在线工具推荐. 下面这个是我最最推荐的方法 ,简单高效 ,只要
详解使用python的logging模块在stdout输出的两种方法

详解使用python的logging模块在stdout输出前言: 使用python的logging模块时,除了想将日志记录在文件中外,还希望在前台执行python脚本时,可以将日志直接输出到标准输出std.out中. 实现 logging模块可以有两种方法实现该功能: 方案一:basicconfig import sys import logging logging.basicConfig(stream=sys.stdout, level=logging.DEBUG) 方案二:handler
基于YUV 数据格式详解及python实现方式

YUV 数据格式概览 YUV 的原理是把亮度与色度分离,使用 Y.U.V 分别表示亮度,以及蓝色通道与亮度的差值和红色通道与亮度的差值.其中 Y 信号分量除了表示亮度 (luma) 信号外,还含有较多的绿色通道量,单纯的 Y 分量可以显示出完整的黑白图像.U.V 分量分别表示蓝 (blue).红 (red) 分量信号,它们只含有色彩 (chrominance/color) 信息,所以 YUV 也称为 YCbCr,C 意思可以理解为 (component 或者 color). 维基百科上的 RGB
详解用Python爬虫获取百度企业信用中企业基本信息

一.背景希望根据企业名称查询其经纬度,所在的省份.城市等信息.直接将企业名称传给百度地图提供的API,得到的经纬度是非常不准确的,因此希望获取企业完整的地理位置,这样传给API后结果会更加准确. 百度企业信用提供了企业基本信息查询的功能.希望通过Python爬虫获取企业基本信息.目前已基本实现了这一需求. 本文最后会提供具体的代码.代码仅供学习参考,希望不要恶意爬取数据! 二.分析以苏宁为例.输入"江苏苏宁"后,查询结果如下: 经过分析,这里列示的企业信息是用JavaScript动
详解在Python中使用Torchmoji将文本转换为表情符号

很难找到关于如何使用Python使用DeepMoji的教程.我已经尝试了几次,后来又出现了几次错误,于是决定使用替代版本:torchMoji. TorchMoji是DeepMoji的pyTorch实现,可以在这里找到:https://github.com/huggingface/torchMoji 事实上,我还没有找到一个关于如何将文本转换为表情符号的教程.如果你也没找到,那么本文就是一个了. 安装这些代码并不完全是我的写的,源代码可以在这个链接上找到. pip3 install torch=
详解用Python调用百度地图正/逆地理编码API

一.背景 (正)地理编码指的是:将地理位置名称转换成经纬度: 逆地理编码指的是:将经纬度转换成地理位置信息,如地名.所在的省份或城市等百度地图提供了相应的API,可以方便调用.相应的说明文档如下: 正地理编码逆地理编码具体API的参数可以查看相应的"服务文档": 不过首次使用时需要申请,具体在控制台.申请AK的方式可参见其他文章. 二.源码废话不多说,直接放源码.这里提供了Python调用这两个API的方法. #!/usr/bin/env python # -*- coding

详解pyppeteer(python版puppeteer)基本使用

相关推荐

随机推荐