python反反爬虫技术限制连续请求时间处理

2025-03-31 08:36:28

前言

一般的反爬措施是在多次请求之间增加随机的间隔时间，即设置一定的延时。但如果请求后存在缓存，就可以省略设置延迟，这样一定程度地缩短了爬虫程序的耗时。

下面利用requests_cache实现模拟浏览器缓存行为来访问网站，具体逻辑如下：存在缓存，就直接走，不存在缓存，就停一下再走

示例代码

用勾子函数根据缓存行为设置访问时间

import requests_cacheimport timerequests_cache.install_cache()  
#默认按照浏览器的缓存进行
requests_cache.clear()
    def make_throttle_hook(timeout=0.1):    
    def hook(response, *args, **kwargs):        
print(response.text)          
# 判断没有缓存时就添加延时      
    if not getattr(response, 'from_cache', False):              
    print(f'Wait {timeout} s!')              
         time.sleep(timeout)      
         else:              
    print(f'exists cache: {response.from_cache}')      
         return response  
         return hookif __name__ == '__main__':    
    requests_cache.install_cache()    
    requests_cache.clear()  
    session = requests_cache.CachedSession()
# 创建缓存会话    
session.hooks = {'response': make_throttle_hook(2)}
# 配置钩子函数    
    print('first requests'.center(50,'*'))    
    session.get('http://httpbin.org/get')  
    print('second requests'.center(50,'*'))    
    session.get('http://httpbin.org/get')

有关requests_cache的更多用法，参考下面requests_cache说明

爬虫相关库

1. 爬虫常用的测试网站：httpbin.org

httpbin.org 这个网站能测试 HTTP 请求和响应的各种信息，比如 cookie、ip、headers 和登录验证等，且支持 GET、POST 等多种方法，对 web 开发和测试很有帮助。它用 Python + Flask 编写，是一个开源项目。

2. requests-cache

requests-cache，是 requests 库的一个扩展包，利用它可以非常方便地实现请求的缓存，直接得到对应的爬取结果。

作用和使用场景

1.在爬取过程中，它可以根据浏览器的缓存机制来选择缓存内容。从请求行为上看与浏览器更加相似，起到反反爬的效果。

2.另外，还可以自定义缓存机制，在爬虫项目中，优化性能。

requests-cache库只能对requests的请求实现缓存功能，而且requests要以session方式进行请求。单独的requests.get、requests.post 不能被缓存。

requests

使用方法

安装：

$ pip install requests-cache

与普通的代码比较

在爬取一个域名下的多个url时，使用requests.session.get或requests.session.post会比单纯的requests.get、requests.post更高效。因为它只建立了一个会话，并在上面做多次请求。同时还支持登录信息cookie等的传递。

下面比较一下缓存代码的写法没有缓存的代码：

普通的requests session爬取

import requests
import time
start = time.time()
session = requests.Session()
for i in range(10):
    session.get('http://httpbin.org/delay/1')
    print(f'Finished {i + 1} requests')
end = time.time()
print('Cost time', end - start)

该代码是访问了httpbin.org网站，该网站会解析delay/1，在1秒后返回。

有缓存的代码：

带缓存的requests session爬取

import requests_cache #pip install requests_cache
import time
start = time.time()
session = requests_cache.CachedSession('demo_cache')
for i in range(10):
    session.get('http://httpbin.org/delay/1')
    print(f'Finished {i + 1} requests')
end = time.time()
print('Cost time', end - start)

为原有代码微创式添加缓存功能

只需要添加一句requests_cache.install_cache('demo_cache')即可。

微创式添加缓存功能

import requests_cache #pip install requests_cache
requests_cache.install_cache('demo_cache')#demo_cache.sqlite 做缓存
import requests
import time
start = time.time()
session = requests.Session()
for i in range(10):
    session.get('http://httpbin.org/delay/1')
    print(f'Finished {i + 1} requests')
end = time.time()
print('Cost time', end - start)

缓存的清空和识别

如果需要清空缓存，可以调用：requests_cache.clear() # 清空缓存代码

通过res.from_cache可以判断该值是否是缓存值：

import requests_cache
import requests
requests_cache.install_cache() # 设置缓存
requests_cache.clear() # 清空缓存
url = 'http://httpbin.org/get'
res = requests.get(url)
print(f'cache exists: {res.from_cache}')
# cache exists: False # 不存在缓存
res = requests.get(url)
print(f'exists cache: {res.from_cache}')
# exists cache: True # 存在缓存

自定义设置缓存的形式

requests_cache.install_cache默认的方式是与浏览器的缓存行为一致的。如果要自定义可以先了解该函数的参数：

requests_cache.install_cache定义

requests_cache.install_cache(
    cache_name='cache',
    backend=None,
    expire_after=None,
    allowable_codes=(200,),
    allowable_methods=('GET',),
    filter_fn=<
function <lambda> at 0x11c927f80>,
        session_factory=<
        class 'requests_cache.core.CachedSession'>,
        **backend_options,)

该参数说明如下： - cache_name：缓存文件名称。

backend：设置缓存的存储机制，默认使用sqlite进行存储。
支持四种不同的存储机制，分别为memory、sqlite、mongoDB、redis。在设置存储机制为mongoDB、redis时需要提前安装对应的模块。pip install pymongo; pip install redies。
memory：以字典的形式将缓存存储在内存当中，程序运行完以后缓存将被销毁
sqlite：将缓存存储在sqlite数据库中
mongoDB：将缓存存储在mongoDB数据库中
redis：将缓存存储在redis中
expire_after：设置缓存的有效时间，默认永久有效。
allowable_codes：设置状态码。
allowable_methods：设置请求方式，默认get，表示只有get请求才可以生成缓存。
session_factory：设置缓存执行的对象，需要实现CachedSession类。
**backend_options：如果缓存的存储方式为sqlit、mongo、redis数据库，该参数表示设置数据库的连接方式。

自定义设置缓存的例子1：设置缓存文件类型

设置缓存文件类型的代码如下：

#设置缓存：任选其一
requests_cache.install_cache('demo_cache')#demo_cache.sqlite 做缓存
#demo_cache文件夹做缓存，删除及表示清空缓存
requests_cache.install_cache('demo_cache', backend='filesystem')
#缓存文件夹便会使用系统的临时目录，而不会在代码区创建缓存文件夹。
requests_cache.install_cache('demo_cache', backend='filesystem', use_temp=True)
#缓存文件夹便会使用系统的专用缓存文件夹，而不会在代码区创建缓存文件夹
requests_cache.install_cache('demo_cache', backend='filesystem', use_cache_dir=True)
#Redis  ，需要安装redis-py  pip install redies
backend = requests_cache.RedisCache(host='localhost', port=6379)
requests_cache.install_cache('demo_cache', backend=backend)

其他不同格式：

MongoDB 安装pymongo pip install pymongo;

调用requests_cache.MongoCache 保存为’mongodb’

gridfs 安装pymongo

调用requests_cache.GridFSCache 保存为’gridfs’

DynamoDB boto3 调用requests_cache.DynamoDbCache 保存为’dynamodb’

Memory 以字典的形式将缓存存储在内存当中，程序运行完以后缓存将被销毁调用requests_cache.BaseCache 保存为’memory’

自定义设置缓存的例子2：设置缓存保存内容

具体例子代码如下：

import time
import requests
import requests_cache
#只缓存post
requests_cache.install_cache('demo_cache2', allowable_methods=['POST'])
#只缓存200返回值的请求
requests_cache.install_cache('demo_cache2', allowable_codes=(200,))

只缓存200返回值的请求

设置缓存的过期时间：

#site1.com 的内容就会缓存 30 秒，site2.com/static 的内容就永远不会过期
urls_expire_after = {'*.site1.com': 30, 'site2.com/static': -1}
requests_cache.install_cache(
    'demo_cache2', urls_expire_after=urls_expire_after)

在响应头中，浏览器会根据cache_control参数来确定是否保存缓存，在设置requests_cache缓存时，可以对cache_control参数设置，使其保存浏览器不需要保存的内容。

# 保存头中，cache_control设为不保存的请求
requests_cache.install_cache('demo_cache3', cache_control=True)
start = time.time()
session = requests.Session()
for i in range(10):
    session.get('http://httpbin.org/delay/1')
    print(f'Finished {i + 1} requests')
end = time.time()
print('Cost time for get', end - start)
start = time.time()
for i in range(10):
    session.post('http://httpbin.org/delay/1')
    print(f'Finished {i + 1} requests')
end = time.time()
print('Cost time for post', end - start)

在 Request Headers 里面加上了 Cache-Control 为 no-store，这样的话，即使我们声明了缓存那也不会生效

session.get('http://httpbin.org/delay/1',
    headers={
    'Cache-Control': 'no-store'
    }
)

以上就是python反反爬虫技术限制连续请求时间处理的详细内容，更多关于python反反爬虫连续请求限制的资料请关注我们其它相关文章！

python中绕过反爬虫的方法总结

我们在登山的途中,有不同的路线可以到达终点.因为选择的路线不同,上山的难度也有区别.就像最近几天教大家获取数据的时候,断断续续的讲过header.地址ip等一些的方法.具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架. 首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面.例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面. 出于对安全的考虑,有些网站会做
Python爬虫突破反爬虫机制知识点总结

1.构建合理的HTTP请求标头. HTTP的请求头是一组属性和配置信息,当您发送一个请求到网络服务器时.因为浏览器和Python爬虫发送的请求头不同,反爬行器很可能会被检测到. 2.建立学习cookie. Cookie是一把双刃剑,有它不行,没有它更不行.站点将通过cookie来追踪你的访问情况,如果发现你有爬虫行为,将立即中断您的访问,例如,填写表格时速度过快,或在短时间内浏览大量网页.而且对cookies的正确处理,也可以避免许多采集问题,建议在收集网站的过程中,检查一下这些网站生成的coo
用sleep间隔进行python反爬虫的实例讲解

在找寻材料的时候,会看到一些暂时用不到但是内容不错的网页,就这样关闭未免浪费掉了,下次也不一定能再次搜索到.有些小伙伴会提出可以保存网页链接,但这种基本的做法并不能在网页打不开后还能看到内容.我们完全可以用爬虫获取这方面的数据,不过操作过程中会遇到一些阻拦,今天小编就教大家用sleep间隔进行python反爬虫,这样就可以得到我们想到的数据啦. 步骤要利用headers拉动请求,模拟成浏览器去访问网站,跳过最简单的反爬虫机制. 获取网页内容,保存在一个字符串content中. 构造正则表达式,
Requests什么的通通爬不了的Python超强反爬虫方案！

一.前言一个非常强的反爬虫方案 -- 禁用所有 HTTP 1.x 的请求! 现在很多爬虫库其实对 HTTP/2.0 支持得不好,比如大名鼎鼎的 Python 库 -- requests,到现在为止还只支持 HTTP/1.1,啥时候支持 HTTP/2.0 还不知道. Scrapy 框架最新版本 2.5.0(2021.04.06 发布)加入了对 HTTP/2.0 的支持,但是官网明确提示,现在是实验性的功能,不推荐用到生产环境,原文如下: " HTTP/2 support in Scrapy is
python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)

因为评论有很多人说爬取不到,我强调几点 kv的格式应该是这样的: kv = {'cookie':'你复制的一长串cookie','user-agent':'Mozilla/5.0'} 注意都应该用 '' ,然后还有个英文的逗号, kv写完要在后面的代码中添加 r = requests.get(url, headers=kv,timeout=30) 自己得先登录自己的淘宝账号才有自己登陆的cookie呀,没登录cookie当然没用以下原博本人是python新手,目前在看中国大学MOOC的嵩天
python反反爬虫技术限制连续请求时间处理

目录前言用勾子函数根据缓存行为设置访问时间爬虫相关库 1. 爬虫常用的测试网站:httpbin.org 2. requests-cache 为原有代码微创式添加缓存功能缓存的清空和识别自定义设置缓存的形式自定义设置缓存的例子1:设置缓存文件类型自定义设置缓存的例子2:设置缓存保存内容前言一般的反爬措施是在多次请求之间增加随机的间隔时间,即设置一定的延时.但如果请求后存在缓存,就可以省略设置延迟,这样一定程度地缩短了爬虫程序的耗时. 下面利用requests_cache实现模拟浏
Python常见反爬虫机制解决方案

1.使用代理适用情况:限制IP地址情况,也可解决由于"频繁点击"而需要输入验证码登陆的情况. 这种情况最好的办法就是维护一个代理IP池,网上有很多免费的代理IP,良莠不齐,可以通过筛选找到能用的.对于"频繁点击"的情况,我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉. proxies = {'http':'http://XX.XX.XX.XX:XXXX'} Requests: import requests response = requests.get(u
python做反被爬保护的方法

网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护.于是,很多网站开始反网络爬虫,想方设法保护自己的内容. 一: User-Agent +Referer检测 User-Agent 是HTTP协议的中的一个字段, 其作用是描述发出HTTP请求的终端的一些信息. 使得服务器能够识别客户使用的操作系统及版本.CPU 类型.浏览器及版本.浏览器渲染引擎.浏览器语言.浏览器插件等. 服务器通过这个字
python cookie反爬处理的实现

Cookies的处理作用保存客户端的相关状态在爬虫中如果遇到了cookie的反爬如何处理? 手动处理在抓包工具中捕获cookie,将其封装在headers中应用场景:cookie没有有效时长且不是动态变化自动处理使用session机制使用场景:动态变化的cookie session对象:该对象和requests模块用法几乎一致.如果在请求的过程中产生了cookie,如果该请求使用session发起的,则cookie会被自动存储到session中. 案例爬取
Python爬虫基础讲解之请求

一.请求目标(URL) URL又叫作统一资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种方法.类似于windows的文件路径. 二.网址的组成: 1.http://:这个是协议,也就是HTTP超文本传输协议,也就是网页在网上传输的协议. 2.mail:这个是服务器名,代表着是一个邮箱服务器,所以是mail. 3.163.com:这个是域名,是用来定位网站的独一无二的名字. 4.mail.163.com:这个是网站名,由服务器名+域名组成. 5./:这个是根目录,也就是说,
Python爬虫技术

目录一.Python爬虫简单介绍 1.抓取网页本身的接口 2.网页抓取后的处理二.爬虫架构三.URL管理器 1.基本功能 2.存蓄方式 3.网页下载器(urllib) 四.网页解析器(BeautifulSoup) 1.解析器选择 2.BeautifulSoup 3.使用说明一.Python爬虫简单介绍 1.抓取网页本身的接口相比与其他静态的编程语言,如java,c#,C++,python抓取网页的接口更简洁:相比其他动态脚本语言,如Perl,shell,python的urllib包提供
Python字体反爬实战案例分享

目录实战场景实战编码实战场景本篇博客学习字体反爬,涉及的站点是实习 x,目标站点地址直接百度搜索即可. 可以看到右侧源码中出现了很多“乱码”,这其中就包含了关键信息. 接下来按照常规的套路,在开发者工具中检索字体相关信息,但是筛选之后,并没有得到反爬的字体,只有一个 file? 有些许的可能性. 这里就是一种新鲜的场景了,如果判断不准,那只能用字体样式和字体标签名进行判断了.在网页源码中检索 @font-face 和 myFont,得到下图内容,这里发现 file 字体又出现了,看来解决
Python小白学习爬虫常用请求报头

客户端HTTP请求 URL只是标识资源的位置,而HTTP是用来提交和获取资源.客户端发送一个HTTP请求到服务器的请求消息,包括以下格式: 请求行.请求头部.空行.请求数据一个典型的HTTP请求 GET https://www.baidu.com/ HTTP/1.1 Host: www.baidu.com Connection: keep-alive Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 6.1; Wi
Python可执行文件反编译教程(exe转py)

python的便利性,使得如今许多软件开发者.黑客都开始使用python打包成exe的方式进行程序的发布,这类exe有个特点,就是可以使用反编译的方法得到程序的源码,是不是很神奇?我们接下来就开始学习如何反编译有python打包成的exe程序吧.PS:下面介绍的是使用比较广泛的pyinstaller的反编译方法. 下面是一个由pyinstaller打包的勒索病毒,我们通过其图标,就可以知道它是pyinstaller打包的. 反编译的第一步是将exe文件转换成pyc文件,这里使用的是pyinstx