详解selenium + chromedriver 被反爬的解决方法

2025-03-29 10:58:09

问题背景：这个问题是在爬取某夕夕商城遇到的问题，原本的方案是用selenium + chromedriver + mitmproxy开心的刷，但是几天之后，发现刷不出来了，会直接跳转到登陆界面（很明显，是遭遇反爬了）

讲实话，这还是第一次用硒被反爬的，于是进行大规模的测试对比。

同台机器，用铬浏览器正常访问是不用跳转到登陆界面的，所以不是IP的问题。再用提琴手抓包对比了一下两个请求头，请求头都是一样的，所以忽略标头的反爬。

最后通过分析，可能是硒被检测出来了。于是就去查资料。大概的查到是和webdriver的有关系的。因为这个在服务端是可以检测到的。于是通过fiddler抓包，全局搜索了一下webdriver，发现在js中果然是有判断的。导致selenium爬取的时候，被转到登陆界面。

解决方法：mitmproxy

因为mitmproxy可以拦截请求，所以在响应中，将包含的webdriver的JS中的关键字替换成其他的字符就可以了。

  if "/_next/static/js/common_pdd" in flow.request.url:
    flow.response.text = flow.response.text.replace("webdriver", "userAgent")

我是这样替换的。这样js解析的参数就变了，问题花刃而解。可以正常爬取数据了。

另外国外网上也有很多方法，比如修改webdriver里的一些特定参数名称，我尝试了一下，没有生效。

到此这篇关于详解selenium + chromedriver 被反爬的解决方法的文章就介绍到这了,更多相关selenium chromedriver反爬内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

下载与当前Chrome对应的chromedriver.exe(用于python+selenium)

一. 打开Chrome浏览器,输chrome://version/ 二.下载chromedriver.exe驱动注意:上图可以看到安装的Chrome浏览器版本为79.0.3945.88 (正式版本) 下载地址1:http://npm.taobao.org/mirrors/chromedriver/ 下载地址2:http://chromedriver.storage.googleapis.com/index.html Firefox浏览器驱动下载地址:https://github.com/moz
selenium+chromedriver在服务器运行的详细教程

1.前言想使用selenium从网站上抓数据,但有时候使用phantomjs会出错.chrome现在也有无界面运行模式了,以后就可以不用phantomjs了. 但在服务器安装chrome时出现了一些错误,这里总结一下整个安装过程 2.ubuntu上安装chrome # Install Google Chrome # https://askubuntu.com/questions/79280/how-to-install-chrome-browser-properly-via-command-l
selenium 安装与chromedriver安装的方法步骤

安装 selenium可以直接可以用pip安装. pip install selenium chromedriver的安装一定要与Chrome的版本一致,不然就不起作用(不要问我是怎么知道的). 有两个下载地址: 1.http://chromedriver.storage.googleapis.com/index.html 2.https://npm.taobao.org/mirrors/chromedriver/ 或者本地下载https://www.jb51.net/softs/538241.
selenium使用chrome浏览器测试（附chromedriver与chrome的对应关系表）

使用WebDriver在Chrome浏览器上进行测试时,需要从http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序,驱动程序名为chromedriver: chromedriver的版本需要和本机的chrome浏览器对应,才能正常使用: 第一步:下载对应版本的chromedriver驱动文件,具体版本请对照文章底部的对应关系表: 如本机的chrome浏览器版本为:版本 61.0.3163.100
使用selenium自动控制浏览器找不到Chromedriver问题

ChromeDriver 是 google 为网站开发人员提供的自动化测试接口,它是 selenium2 和 chrome浏览器进行通信的桥梁.selenium 通过一套协议(JsonWireProtocol :https://github.com/SeleniumHQ/selenium/wiki/JsonWireProtocol)和 ChromeDriver 进行通信,selenium 实质上是对这套协议的底层封装,同时提供外部 WebDriver 的上层调用类库. 下面看下解决使用sele
python+selenium+chromedriver实现爬虫示例代码

下载好所需程序 1.Selenium简介 Selenium是一个用于Web应用程序测试的工具,直接运行在浏览器中,就像真正的用户在操作一样. 2.Selenium安装方法一:在Windows命令行(cmd)输入pip install selenium即可自动安装,安装完成后,输入pip show selenium可查看当前的版本方法二:直接下载selenium包: selenium下载网址 Pychome安装selenium如果出现无法安装,参考以下博客解决Pycharm无法使用已经安装S
selenium + ChromeDriver安装及使用方法

Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.而对于爬虫来说,使用Selenium操控浏览器来爬取网上的数据那么肯定是爬虫中的杀手武器.这里,我将介绍selenium + 谷歌浏览器的一般使用.首先会介绍如何安装部署环境,然后贴出一些本人所使用的一些方法,最后给出github地址,供大家下载. 1. selenium 环境配置 selenium 官网地址:http://www.seleniumhq.org/download/
python selenium 执行完毕关闭chromedriver进程示例

因为使用多次以后发现进程中出现了很多chromedriver的残留,造成卡顿,所以决定优化一下. 这个问题困扰了楼主很久,百度谷歌查来查去都只有java,后面根据java和selenium结合看找出了python如何执行完把chromedriver进程关闭 Python的话控制chromedriver的开启和关闭的包是Service from selenium.webdriver.chrome.service import Service 创建的时候需要把chromedriver.exe的位置写
详解selenium + chromedriver 被反爬的解决方法

问题背景:这个问题是在爬取某夕夕商城遇到的问题,原本的方案是用selenium + chromedriver + mitmproxy开心的刷,但是几天之后,发现刷不出来了,会直接跳转到登陆界面(很明显,是遭遇反爬了) 讲实话,这还是第一次用硒被反爬的,于是进行大规模的测试对比. 同台机器,用铬浏览器正常访问是不用跳转到登陆界面的,所以不是IP的问题.再用提琴手抓包对比了一下两个请求头,请求头都是一样的,所以忽略标头的反爬. 最后通过分析,可能是硒被检测出来了.于是就去查资料.大概的查到是和web
Mybatis详解在注解sql时报错的解决方法

目录错误: 文件结构 BookMapper.java BookMapperSQL .java Mybatis的配置文件分析: 错误: 在做Mybatis用注解方式来注入sql的练习时,报了这样子的错误. 遇到错误很正常,然后我又从学了一遍今天刚刚学的内容,温故而知新嘛. 错误问题如下: 文件结构 BookMapper.java public interface BookMapper { @SelectProvider(type = BookMapperSQL.class,method = "
python下setuptools的安装详解及No module named setuptools的解决方法

前言 python下的setuptools带有一个easy_install的工具,在安装python的每三方模块.工具时很有用,也很方便. 安装setuptools前先安装pip,请参考:linux下pip的安装步骤及使用详解 1. 下载: 在它的官网可以下载到安装包: https://pypi.python.org/pypi/setuptools 页面最下面的是它的安装链接,如: $wget --no-check-certificate https://pypi.python.org/pack
详解Spring中实现接口动态的解决方法

前言本文主要给大家介绍的是关于Spring实现接口动态的相关内容,分享出来供大家参考学习,下面话不多说,来一起看看详细的介绍吧. 关于这个问题是因为领导最近跟我提了一个需求,是有关于实现类Mybatis的@Select.@Insert注解的功能.其是基于interface层面,不存在任何的接口实现类.因而在实现的过程中,首先要解决的是如何动态实现接口的实例化.其次是如何将使接口根据注解实现相应的功能. 声明解决方案是基于Mybatis源码,进行二次开发实现. 解决方法我们先来看看Mybat
详解no input file specified 三种解决方法

一.IIS Noinput file specified 方法一:改PHP.ini中的doc_root行,打开ini文件注释掉此行,然后重启IIS 方法二: 请修改php.ini 找到 ; cgi.force_redirect = 1 去掉前面分号,把后面的1改为0 即 cgi.force_redirect = 0 二.apache No input file specified apache No input filespecified,今天是我们配置apache RewriteRule时出
Python 详解通过Scrapy框架实现爬取百度新冠疫情数据流程

目录前言环境部署插件推荐爬虫目标项目创建 webdriver部署项目代码 Item定义中间件定义定义爬虫 pipeline输出结果文本配置文件改动验证结果总结前言闲来无聊,写了一个爬虫程序获取百度疫情数据.申明一下,研究而已.而且页面应该会进程做反爬处理,可能需要调整对应xpath. Github仓库地址:代码仓库本文主要使用的是scrapy框架. 环境部署主要简单推荐一下插件推荐这里先推荐一个Google Chrome的扩展插件xpath helper,可以验
Python 详解通过Scrapy框架实现爬取CSDN全站热榜标题热词流程

目录前言环境部署实现过程创建项目定义Item实体关键词提取工具爬虫构造中间件代码构造制作自定义pipeline settings配置执行主程序执行结果总结前言接着我的上一篇:Python 详解爬取并统计CSDN全站热榜标题关键词词频流程我换成Scrapy架构也实现了一遍.获取页面源码底层原理是一样的,Scrapy架构更系统一些.下面我会把需要注意的问题,也说明一下. 提供一下GitHub仓库地址:github本项目地址环境部署 scrapy安装 pip insta
详解Selenium 元素定位和WebDriver常用方法

一.定位元素的8种方式 1.方法介绍定位一个元素定位多个元素含义 find_element_by_id() find_elements_by_id() 通过元素id定位 find_element_by_name() find_elements_by_name() 通过元素name定位 find_element_by_xpath() find_elements_by_xpath() 通过xpath表达式定位 find_element_by_link_text() find_elements_
python爬虫线程池案例详解(梨视频短视频爬取)

python爬虫-梨视频短视频爬取(线程池) 示例代码 import requests from lxml import etree import random from multiprocessing.dummy import Pool # 多进程要传的方法,多进程pool.map()传的第二个参数是一个迭代器对象 # 而传的get_video方法也要有一个迭代器参数 def get_video(dic): headers = { 'User-Agent':'Mozilla/5.0 (Wind
详解Selenium中元素定位方式

目录八大元素定位方式通过元素 id 定位通过元素 name 定位通过元素 class name 定位通过 link text 与 partial link text 定位通过 css selector 选择器定位通过 Xpath 定位通过 tag_name 定位测试对象的定位和操作是我们利用 selenium 编写自动化脚本和 webdriver 的核心内容,其中 “操作” 这一部分又是建立在 “selenium” 元素定位的基础之上的.所以对元素对象的定位就显得越发的重要,接

详解selenium + chromedriver 被反爬的解决方法

相关推荐

随机推荐