pyppeteer执行js绕过webdriver监测方法下

2025-12-15 01:42:15

官方文档

https://miyakogi.github.io/pyppeteer/reference.html#mouse-class

启动pyppteer

import asyncio
from pyppeteer import launch
async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
    print(await page.content())  # 返回html代码
    resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

切图

# 设置页面视图大小
await page.setViewport(viewport={'width': 1280, 'height': 800})
# 是否启用JS，enabled设为False，则无渲染效果
await page.setJavaScriptEnabled(enabled=True)
# 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
# 截图 保存图片
await page.screenshot({'path': 'cnblog.png'})

获取响应头，响应头状态，cookies

async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
	resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    cookies = page.cookies()
    print(resp_headers)
    print(resp_status)
    print(page.cookies())
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

获取当前页面标题

print(await page.title())

获取页面html

import asyncio
from pyppeteer import launch
async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
     # 打开一个页面
    page = await browser.newPage()
	# 是否启用JS，enabled设为False，则无渲染效果
    await page.setJavaScriptEnabled(enabled=True)
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
    print(await page.content())  # 返回html代码

第一种：获取整个页面html

 res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
 # 等待
 await asyncio.sleep(2)
print(await page.content())  # 返回html代码

第二种：只获取文本

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
content = await page.evaluate(pageFunction='document.body.textContent', force_expr=True)
print(content)

注入JS，控制上下滚动

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
# 滑到底部
await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')
# js
window.scrollTo(0,100)  # 向下滑动100
window.scrollTo(0,500)  # 向下滑动500
window.scrollTo(0,document.body.scrollHeight)  # 滑到底部
window.scrollTo(0,document.body.scrollHeight-500) # 滑到-500

选择器

Page.querySelector()  # CSS选择器
Page.querySelectorAll()  # CSS选择器选所有
Page.xpath()  # xpath选择器
# 简写方式为：
Page.J(), Page.JJ(), and Page.Jx()

获取元素内部的文本、属性

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')
# 方式一：获取h2标签内容--执行JS方式
element = await page.querySelector('h2')
title = await page.evaluate('(element) => element.textContent', element)
# 方式二：获取文本
element = await page.querySelector('h2')
title = await (await item.getProperty('textContent')).jsonValue()
# 方式三：获取属性src,href
element = await page.querySelector('h2')
title_link = await (await item.getProperty('href')).jsonValue()

get_html

async def get_html(url):
    browser = await pyppeteer.launch(headless=True, args=['--no-sandbox'])
    page = await  browser.newPage()
    res = await page.goto(url, options={'timeout': 3000})
    data = await page.content()
    title = await page.title()
    resp_cookies = await page.cookies()  # cookie
    resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    print(data)
    print(title)
    print(resp_headers)
    print(resp_status)
    return xxx

模拟输入，鼠标点击

# 模拟输入 账号密码  {'delay': rand_int()} 为输入时间
await page.type('#fm-login-id', "用户名")
await page.type('#fm-login-password', "密码", )
await page.waitFor(1000) # 等待时间
await page.click("#J_SubmitStatic")  # 点击

taobao登录

import asyncio
from pyppeteer import launch
async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    await page.setViewport(viewport={'width': 1280, 'height': 800})
    res = await page.goto('https://login.taobao.com/', options={'timeout': 10000})
    await page.type('#fm-login-id', "123456")
    await page.type('#fm-login-password', "aaa", )
    await page.waitFor(1000)  # 等待时间
    slider = await page.querySelector('#nc_1_n1z') # 是否有滑块
    if slider:
        try:
            print('有滑块')
            await page.hover('#nc_1_n1z')  # 不同场景的验证码模块能名字不同。
            await page.mouse.down()
            # X，Y坐标，steps 是指分成几步来完成，steps越大，滑动速度越慢。(在源码中，steps是指移动到指定x,y 分段滑动的次数，但是每次启动滑动都会花费一定时间，可以认为steps是滑动的速度)
            # 如果是每次移动的距离，可以用for循环尝试正负移动
            await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
            await page.mouse.up()
        except Exception as e:
            print(e)
            input('验证失败，人工登录：')
    else:
        print('没有滑块')
        input()
    await page.click("#login-form > div.fm-btn > button")  # 点击登录
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

taobao修改检测浏览器

await page.evaluate(
        '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')  # 以下为插入中间js，将淘宝会为了检测浏览器而调用的js修改其结果。
await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')
# 使用type选定页面元素，并修改其数值，用于输入账号密码，修改的速度仿人类操作，因为有个输入速度的检测机制
# 因为 pyppeteer 框架需要转换为js操作，而js和python的类型定义不同，所以写法与参数要用字典，类型导入
await page.type('.J_UserName', username, {'delay': input_time_random() - 50})
await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})
# await page.screenshot({'path': './headless-test-result.png'})    # 截图测试
def input_time_random():
    return random.randint(100, 151)

鼠标事件

.click()  # 点击按钮
.down()   # 按下按钮
.up()     # 释放按钮
.move()   # 移动光标

键盘事件

您可以使用down()，up()和 sendCharacter()手动触发事件，就好像事件是由真实键盘生成的一样。
await page.keyboard.press('ArrowLeft')
await page.keyboard.down('Shift')
for i in ' World':
    await page.keyboard.press('ArrowLeft')
await page.keyboard.up('Shift')
await page.keyboard.press('Backspace')
# Result text will end up saying 'Hello!'.

按下键盘A：

await page.keyboard.down('Shift')
await page.keyboard.press('KeyA')
await page.keyboard.press('Enter')
await page.keyboard.up('Shift')

注意
修饰键确实会影响down()。按住shift 将以大写形式键入文本。

参数：

key（str）–要按键的名称，例如ArrowLeft。

options（dict）–选项可以具有text字段，如果指定了此选项，则使用此文本生成输入事件。

使用ip代理ua

import asyncio
from pyppeteer import launch
async def register():
    browser = await launch({
        'headless': False,
        # 代理ip
        'args': ['--proxy-server=47.105.111.124:15525', ]
    })
    page = await browser.newPage()
    await page.setUserAgent(
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')
asyncio.get_event_loop().run_until_complete(register())
# 更多参数
args: [
            '--disable-setuid-sandbox',
            '--no-sandbox',
            '--proxy-server=10.24.51.125:8411',
            '--ignore-certificate-errors',
            '--window-size=375,812',
            '--remote-debugging-port=9222'
        ],

以上就是pyppeteer执行js并绕过webdriver监测的常见方法下篇的详细内容，更多关于pyppeteer执行js绕过webdriver监测的资料请关注我们其它相关文章！

python爬虫 Pyppeteer使用方法解析

引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome.Firefox 等等,然后还要到官方网站去下载对应的驱动,最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便,另外如果要做大规模部署的话,环境配置的一些问题也是个头疼的事情.那么本节就介绍另一个类似的替代品,叫做 Pyppeteer. Pyppeteer简介注意,本节讲解的模块叫做 Pyppeteer,不是 Puppeteer.Puppeteer 是 Goo
python pyppeteer 破解京东滑块功能的代码

Pyppeteer简介介绍Pyppeteer之前先说一下Puppeteer,Puppeteer是谷歌出品的一款基于Node.js开发的一款工具,主要是用来操纵Chrome浏览器的 API,通过Javascript代码来操纵Chrome浏览器,完成数据爬取.Web程序自动测试等任务. 在上篇文章给大家详细介绍了python爬虫 Pyppeteer使用方法解析 ,感兴趣的朋友可以点击查看. 今天给大家介绍python pyppeteer 破解京东滑块功能,具体代码如下所示: import asyn
selenium执行js并绕过webdriver监测常见方法

目录 selenium执行js 优点:直接调用浏览器的环境障碍:绕过selenium监测原理: # 执行js代码 bro.execute_script('js代码') 常见的selenium监测手段正常登录 window.navigator.webdriver == undefined 自动化的 window.navigator.webdriver == true 除此之外,还有一些其它的标志性字符串(不同的浏览器可能会有所不同),常见的特征串如下所示: webdriver __drive
Python中selenium_webdriver下拉框操作指南

目录环境搭建 Python selenium_webdriver下拉框操作总结环境搭建首先以python3.x为基础来搭建基础环境 1.安装python 基础环境(python的基础环境太简单了在这里就不说啦) 2.安装完成python我们需要安装一下python的基础工具包pip,正常情况一下,安装python的时候会把pip基础包安装,但是也有一些人没有安装. i.下载pip 安装包,记住这里要找什么exe文件,直接用源码安装. ii.解压pip-9.0.1.tar.gz,执行pyt
python使用webdriver爬取微信公众号

本文实例为大家分享了python使用webdriver爬取微信公众号的具体代码,供大家参考,具体内容如下 # -*- coding: utf-8 -*- from selenium import webdriver import time import json import requests import re import random #微信公众号账号 user="" #公众号密码 password="" #设置要爬取的公众号列表 gzlist=['香河微服务
使用Python webdriver图书馆抢座自动预约的正确方法

文章目录微信登录问题Python chrome driver操作导入库并声明浏览器:完整流程:用js来预约生成js代码主函数--程序出错时尝试:检测是否成功:logging: 生成每天的日志文件 Windows定时任务后记: 学校的图书馆需要网上预约.复习考研的人多.疫情座位少,约上一个好点的座位对于我这种经常忘记事情的懒人来说很难. 考虑到老师实验室有一台供我们使用的Windows服务器是不会关机的,正好可以帮我在早上7:00预约系统开启的时候执行程序去预约一个座位.所以产生了这个想法.
详解Selenium-webdriver绕开反爬虫机制的4种方法

之前爬美团外卖后台的时候出现的问题,各种方式拖动验证码都无法成功,包括直接控制拉动,模拟人工轨迹的随机拖动都失败了,最后发现只要用chrome driver打开页面,哪怕手动登录也不可以,猜测driver肯定是直接被识别出来了.一开始尝试了改user agent等方式,仍然不行,由于其他项目就搁置了.今天爬淘宝生意参谋又出现这个问题,经百度才知道原来chrome driver的变量有一个特征码,网站可以直接根据特征码判断,经百度发现有4种方法可以解决,记录一下自己做的尝试. 1.mitproxy
pyppeteer执行js绕过webdriver监测方法下

目录官方文档启动pyppteer 切图获取响应头,响应头状态,cookies 获取当前页面标题获取页面html 第一种:获取整个页面html 第二种:只获取文本注入JS,控制上下滚动选择器获取元素内部的文本.属性 get_html 模拟输入,鼠标点击 taobao登录 taobao修改检测浏览器鼠标事件键盘事件使用ip代理ua 官方文档 https://miyakogi.github.io/pyppeteer/reference.html#mouse-class 启动pypp
pyppeteer执行js绕过webdriver监测方法上

目录 Pyppeteer简介下载打开网页并截图评估页面上的脚本关键字参数的选项选择器基础用法模拟输入使用 tkinter 获取页面高度宽度爬取京东商城爬取淘宝网利用获取到的cookie 爬取搜索内容针对iframe 的操作 Pyppeteer简介 Puppeteer 是 Google 基于 Node.js 开发的一个工具,有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作,当然也可以用作网络爬虫上,其 API 极其完善,功能非常强大. 而
C#执行js动态编译的方法

本文实例讲述了C#执行js动态编译的方法.分享给大家供大家参考.具体实现方法如下: 复制代码代码如下: using System; using System.CodeDom.Compiler; using System.Collections.Generic; using System.Linq; using System.Reflection; using System.Text; using System.Threading.Tasks; namespace webpro
asp.net中button控制先执行js再执行后台程序的方法

本文实例讲述了asp.net中button控制先执行js再执行后台程序的方法.分享给大家供大家参考.具体分析如下: 在.net中要实现button控制点击之后先执行js再执行后台程序这个看上去没什么难度,这里我们就一起来看一个asp.net中button控制先执行js再执行后台程序的实现方法,希望可以帮助到各位. 关于button这个服务器控件,我一直想减少它向服务器提交数据.那些检测,还是在客户端实现就好了. 这就需要javascript,但是我发现仅仅有javascript还是不够的.but
JS实现获取键盘按下的按键并显示在页面上的方法

本文实例讲述了JS实现获取键盘按下的按键并显示在页面上的方法.分享给大家供大家参考,具体如下: 请你使用键盘输入一些字符,这些字符就被显示在网页的空白处,是不是少了文本框或文本域之类的东西,觉得挺不习惯呢?这个效果是应用了JavaScript中的document.onkeypress对象,监测键盘的一举一动,并记录下哪些键被按下,有意思吧,想研究Js的朋友,就从这些小例子开始吧. 运行效果截图如下: 在线演示地址如下: http://demo.jb51.net/js/2015/js-web-sh
原生JS实现DOM加载完成马上执行JS代码的方法

用原生JS我们经常使用window.onload事件来加载页面.但是window.onload是在页面元素都加载完毕后才执行,如果页面内有大的图片的话,会在页面展现后好久时间后才执行.所以有时我们需要在DOM载入时马上执行一些函数.jQuery提供了document.ready方法用来代替window.onload.但又不愿意仅为了这一个需求而引入整个JQuery库,于是就把jQuery的方法提取出来,单独使用了. 如果只需要对DOM进行操作,那么这时就没必要等到页面全部加载了.Firefox有
js实现鼠标感应向下滑动隐藏菜单的方法

本文实例讲述了js实现鼠标感应向下滑动隐藏菜单的方法.分享给大家供大家参考.具体实现方法如下: 复制代码代码如下: <html> <head> <title>隐藏在网页左上角感应鼠标向下滑出的隐藏菜单</title> <style>#D1 { BACKGROUND-COLOR: blue; BORDER-BOTTOM: white 2px outset; BORDER-LEFT: white 2px outset;
JS绕过代理、VPN获取真实IP及内网IP,逆向追踪的实现方法

Firefox 跟 Chrome支持WebRTC可以向STUN服务器请求,返回内外网IP,不同于XMLHttpRequest请求,STUN请求开发者工具当中看不到网络请求的. //get the IP addresses associated with an account function getIPs(callback) { var ip_dups = {}; //compatibility for firefox and chrome var RTCPeerConnection = win
webBrowser执行js的方法,并返回值,c#后台取值的实现

实例如下: private void Form1_Load(object sender, EventArgs e) { webBrowser1.Navigate(Application.StartupPath + @"\i.html"); txtInfo.Text = webBrowser1.DocumentText; } private void button2_Click(object sender, EventArgs e) { webBrowser1.Document.Invo