springboot反爬虫组件kk-anti-reptile的使用方法

2025-02-17 18:06:25

大家好，我是为广大程序员兄弟操碎了心的小编，每天推荐一个小工具/源码，装满你的收藏夹，每天分享一个小技巧，让你轻松节省开发效率，实现不加班不熬夜不掉头发，是我的目标！

今天小编推荐一款反爬虫组件叫kk-anti-reptile，一款可快速接入的反爬虫、接口防盗刷spring boot stater组件。

1. 系统要求

基于spring-boot开发(spring-boot1.x, spring-boot2.x均可)
需要使用redis

2. 工作流程

kk-anti-reptile使用基于Servlet规范的的Filter对请求进行过滤，在其内部通过spring-boot的扩展点机制，实例化一个Filter，并注入到Spring容器FilterRegistrationBean中，通过Spring注入到Servlet容器中，从而实现对请求的过滤。

在kk-anti-reptile的过滤Filter内部，又通过责任链模式，将各种不同的过滤规则织入，并提供抽象接口，可由调用方进行规则扩展。

Filter调用则链进行请求过滤，如过滤不通过，则拦截请求，返回状态码509，并输出验证码输入页面，输出验证码正确后，调用过滤规则链对规则进行重置。

目前规则链中有如下两个规则

ip-rule

ip-rule通过时间窗口统计当前时间窗口内请求数，小于规定的最大请求数则可通过，否则不通过。时间窗口、最大请求数、ip白名单等均可配置

ua-rule

ua-rule通过判断请求携带的User-Agent，得到操作系统、设备信息、浏览器信息等，可配置各种维度对请求进行过滤

3. 接入使用

后端接入非常简单，只需要引用kk-anti-reptile的maven依赖，并配置启用kk-anti-reptile即可。

加入maven依赖

<dependency>
  <groupId>cn.keking.project</groupId>
  <artifactId>kk-anti-reptile</artifactId>
  <version>1.0.0-SNAPSHOT</version>
</dependency>

4.配置启用 kk-anti-reptile

anti.reptile.manager.enabled=true

前端需要在统一发送请求的ajax处加入拦截，拦截到请求返回状态码509后弹出一个新页面，并把响应内容转出到页面中，然后向页面中传入后端接口baseUrl参数即可，以使用axios请求为例：

import axios from 'axios';
import {baseUrl} from './config';

axios.interceptors.response.use(
 data => {
  return data;
 },
 error => {
  if (error.response.status === 509) {
   let html = error.response.data;
   let verifyWindow = window.open("","_blank","height=400,width=560");
   verifyWindow.document.write(html);
   verifyWindow.document.getElementById("baseUrl").value = baseUrl;
  }
 }
);

export default axios;

5. 注意

apollo-client需启用bootstrap

使用apollo配置中心的用户，由于组件内部用到@ConditionalOnProperty，要在application.properties/bootstrap.properties中加入如下样例配置，(apollo-client需要0.10.0及以上版本）

apollo.bootstrap.enabled = true

需要有Redisson连接

如果项目中有用到Redisson，kk-anti-reptile会自动获取RedissonClient实例对象; 如果没用到，需要在配置文件加入如下Redisson连接相关配置

spring.redisson.address=redis://192.168.1.204:6379
spring.redisson.password=xxx

6.命中规则后

命中爬虫和防盗刷规则后，会阻断请求，并生成接除阻断的验证码，验证码有多种组合方式，如果客户端可以正确输入验证码，则可以继续访问

7.结尾

以上就是springboot反爬虫组件kk-anti-reptile的使用方法的详细内容，更多关于springboot反爬虫组件kk-anti-reptile的资料请关注我们其它相关文章！

python 常见的反爬虫策略

1.判断请求头来进行反爬这是很早期的网站进行的反爬方式 User-Agent 用户代理 referer 请求来自哪里 cookie 也可以用来做访问凭证解决办法:请求头里面添加对应的参数(复制浏览器里面的数据) 2.根据用户行为来进行反爬请求频率过高,服务器设置规定时间之内的请求阈值解决办法:降低请求频率或者使用代理(IP代理) 网页中设置一些陷阱(正常用户访问不到但是爬虫可以访问到) 解决办法:分析网页,避开这些特殊陷阱请求间隔太短,返回相同的数据解决办法:增加请求间隔 3.js加
详解Selenium-webdriver绕开反爬虫机制的4种方法

之前爬美团外卖后台的时候出现的问题,各种方式拖动验证码都无法成功,包括直接控制拉动,模拟人工轨迹的随机拖动都失败了,最后发现只要用chrome driver打开页面,哪怕手动登录也不可以,猜测driver肯定是直接被识别出来了.一开始尝试了改user agent等方式,仍然不行,由于其他项目就搁置了.今天爬淘宝生意参谋又出现这个问题,经百度才知道原来chrome driver的变量有一个特征码,网站可以直接根据特征码判断,经百度发现有4种方法可以解决,记录一下自己做的尝试. 1.mitproxy
网站反爬虫策略

今天来谈谈关于反爬虫的东西. 随着大数据时代的来临,无论是个人还是企业,对于数据的需求都越来越大.这种需求也催生了如今异常热门的数据产业,也催生了日益完善的网络数据采集技术. 这种需求的扩大, 同时让网络爬虫日益猖獗,猖獗到甚至影响到了网站和APP的正常运行. 高频的网络爬虫行为无异于DDOS(分布式拒绝服务)攻击,虽然法律可以治它,但是其过程之繁琐,还是不如先让网站自身充分地强大起来. 为了便于基础薄弱的同学理解,我们先看一个基本的网站访问链路图: 这其中包含了我们从个人电脑的浏览器上访问一个
Python反爬虫伪装浏览器进行爬虫

对于爬虫中部分网站设置了请求次数过多后会封杀ip,现在模拟浏览器进行爬虫,也就是说让服务器认识到访问他的是真正的浏览器而不是机器操作简单的直接添加请求头,将浏览器的信息在请求数据时传入: 打开浏览器--打开开发者模式--请求任意网站如下图:找到请求的的名字,打开后查看headers栏,找到User-Agent,复制.然后添加到请求头中代码如下: import requests url = 'https://www.baidu.com' headers ={ 'User-Agent':'Mo
springBoot+webMagic实现网站爬虫的实例代码

前端时间公司项目需要抓取各类数据,py玩的不6,只好研究Java爬虫方案,做一个总结. 开发环境: springBoot 2.2.6.jdk1.8. 1.导入依赖  <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version&g
Python爬虫与反爬虫大战

爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络.小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据.所以相对来说封ip的策略不是特别好,通常都是禁止某ip一段时间访问. 成本:反爬虫也是需要人力和机器成本拦截:成功拦截爬虫,一般拦截
springboot+webmagic实现java爬虫jdbc及mysql的方法

前段时间需要爬取网页上的信息,自己对于爬虫没有任何了解,就了解了一下webmagic,写了个简单的爬虫. 一.首先介绍一下webmagic: webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取.页面下载.内容抽取.持久化),支持多线程抓取,分布式抓取,并支持自动重试.自定义UA/cookie等功能. 实现理念: Maven依赖: <dependency> <groupId>us.codecraft</groupId> <artifactId
python中绕过反爬虫的方法总结

我们在登山的途中,有不同的路线可以到达终点.因为选择的路线不同,上山的难度也有区别.就像最近几天教大家获取数据的时候,断断续续的讲过header.地址ip等一些的方法.具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架. 首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面.例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面. 出于对安全的考虑,有些网站会做
Nginx反爬虫策略，防止UA抓取网站

新增反爬虫策略文件: vim /usr/www/server/nginx/conf/anti_spider.conf 文件内容 #禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } #禁止指定UA及UA为空的访问 if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|Ji
selenium 反爬虫之跳过淘宝滑块验证功能的实现代码

在处理问题的之前,给大家个第一个锦囊! 你需要将chorme更新到最新版版本84,下载对应的chorme驱动链接:http://chromedriver.storage.googleapis.com/index.html 注意划重点!!一定要做这一步,因为我用的83的chorme他是不行滴,~~~~~~~ 问题 1.一周前我的滑块验证代码还是可以OK的,完全没问题!附代码 low一眼 url = "https://login.taobao.com/member/login.jhtml&quo
cookies应对python反爬虫知识点详解

在保持合理的数据采集上,使用python爬虫也并不是一件坏事情,因为在信息的交流上加快了流通的频率.今天小编为大家带来了一个稍微复杂一点的应对反爬虫的方法,那就是我们自己构造cookies.在开始正式的构造之前,我们先进行简单的分析如果不构造cookies爬虫时会出现的一些情况,相信这样更能体会出cookies的作用. 网站需要cookies才能正常返回,但是该网站的cookies过期很快,我总不能用浏览器开发者工具获取cookies,然后让程序跑一会儿,每隔几分钟再手动获取cookies,再让
python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)

因为评论有很多人说爬取不到,我强调几点 kv的格式应该是这样的: kv = {'cookie':'你复制的一长串cookie','user-agent':'Mozilla/5.0'} 注意都应该用 '' ,然后还有个英文的逗号, kv写完要在后面的代码中添加 r = requests.get(url, headers=kv,timeout=30) 自己得先登录自己的淘宝账号才有自己登陆的cookie呀,没登录cookie当然没用以下原博本人是python新手,目前在看中国大学MOOC的嵩天