Java selenium处理极验滑动验证码示例

2025-02-16 14:18:14

要爬取一个网站遇到了极验的验证码，这周都在想着怎么破解这个，网上搜了好多知乎上看到有人问了这问题，我按照这思路去大概实现了一下。

1.使用htmlunit（这种方式我没成功，模拟鼠标拖拽后轨迹没生成,可以跳过）

我用的是java,我首先先想到了用直接用htmlunit，我做了点初始化

private void initWebClient() {
    if (webClient != null) {
      return;
    }
    webClient = new WebClient(BrowserVersion.FIREFOX_24);
     webClient.getOptions().setProxyConfig(new ProxyConfig("127.0.0.1",8888));
    webClient.getOptions().setActiveXNative(true);
    webClient.getOptions().setUseInsecureSSL(true); // 配置证书
    webClient.getOptions().setJavaScriptEnabled(true);
    webClient.getOptions().setCssEnabled(true);
    webClient.setCssErrorHandler(new SilentCssErrorHandler());
    webClient.getOptions().setThrowExceptionOnScriptError(false);
    webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
    CookieManager cookieManager = new CookieManager();
    List<org.apache.http.cookie.Cookie> httpCookies = client.getCookies();//其方式获取的cookie
    for (org.apache.http.cookie.Cookie cookie : httpCookies) {
      cookieManager.addCookie(new com.gargoylesoftware.htmlunit.util.Cookie(cookie));
    }
    webClient.setCookieManager(cookieManager);
  }

初始化代理，cookie..然后就能正常调用了

HtmlPage page = webClient.getPage("http://www.qixin.com/login");//企信宝
gePageInfor(page);

下面就是我获取图片，还原图片并且模拟拖拽，（这里我觉得是有些问题的，可能是拖拽我模拟的不对导致触发的js并没有生成正确的轨迹，还请大家帮忙看看哪里错了）

private void gePageInfor(HtmlPage page) {
    String[] img_slice={"div", "class", "gt_cut_fullbg_slice"};
    String[] img_bg_slice={"div", "class", "gt_cut_bg_slice"};
    HtmlDivision div = (HtmlDivision) page.getElementById("captcha");
    int deCAPTCHA = 0;
    try {
      byte[] img_slice_binary = client.get(getImgUrl(img_slice, div, true)).getBinary();//获取图片byte
      byte[] img_bg_slice_binary = client.get(getImgUrl(img_bg_slice, div, false)).getBinary();
      //获取还原后的图片
      BufferedImage geetestImg = ImgTest.getGeetestImg(img_slice_binary, ImgTest.imgArray);
      BufferedImage geetestImg2 = ImgTest.getGeetestImg(img_bg_slice_binary, ImgTest.imgArray);
      //获得图片移动位置（目前还有问题，需改用第三方图片识别）
      deCAPTCHA =ImgTest.deCAPTCHA(geetestImg,geetestImg2);
      System.out.println(deCAPTCHA);
    } catch (IOException | FetchException e) {
      e.printStackTrace();
    }
    HtmlDivision div_slider_knob = get_div_slider_knob(page,"gt_slider_knob gt_show");//获取要移动div
    HtmlPage mouseOver = (HtmlPage) div_slider_knob.mouseOver();
    HtmlPage mouseDownPage = (HtmlPage)div_slider_knob.mouseDown();
    div_slider_knob = get_div_slider_knob(mouseDownPage,"gt_slider_knob gt_show moving");
    mouseMoveX(deCAPTCHA, div_slider_knob, mouseDownPage);
    HtmlPage newPage =(HtmlPage)div_slider_knob.mouseOver();
//    newPage =(HtmlPage)div_slider_knob.mouseDown();
    System.out.println(newPage.asXml());
    div = (HtmlDivision)newPage.getElementById("captcha");
    HtmlElement htmlElement = div.getElementsByAttribute("div", "class", "gt_slice gt_show moving").get(0);
    System.out.println(htmlElement);
    newPage =(HtmlPage)div_slider_knob.mouseUp();//触发js,轨迹没有生成
    System.out.println("---------------");
    System.out.println(newPage.asXml());
    if (newPage.getElementById("captcha")!=null) {//错误重试
      //gePageInfor(newPage);
    }
  }

  private void mouseMoveX(int deCAPTCHA, HtmlDivision div_slider_knob, HtmlPage mouseDown) {
    MouseEvent mouseEvent = new MouseEvent(div_slider_knob, MouseEvent.TYPE_MOUSE_MOVE, false, false, false, MouseEvent.BUTTON_LEFT);
    mouseEvent.setClientX( mouseEvent.getClientX()+((deCAPTCHA!=0)?deCAPTCHA:99));  //移动x坐标
    ScriptResult scriptResult = mouseDown.getDocumentElement().fireEvent(mouseEvent);
  }
  private HtmlDivision get_div_slider_knob(HtmlPage page,String classString) {
    return (HtmlDivision)(((HtmlDivision) page.getElementById("captcha")).getElementsByAttribute("div", "class", classString).get(0));
  }

  private String getImgUrl(String[] img_slice, HtmlDivision div, boolean isNeedCheckPostion) {
    String url ="";
    int[] postion = new int[2];
    boolean empty = div.getElementsByAttribute(img_slice[0],img_slice[1],img_slice[2]).isEmpty();
    if (div.hasChildNodes() && !empty) {
      List<HtmlElement> elementsByAttribute = div.getElementsByAttribute(img_slice[0],img_slice[1],img_slice[2]);
      for(int i = 0;i<elementsByAttribute.size();i++){
        HtmlDivision div_img = (HtmlDivision)elementsByAttribute.get(i);
        String style = div_img.getAttribute("style");
        String[] imge_url_position = style.split(";");
        if(StringUtils.isBlank(url)){//确认url
          url = StringUtils.replacePattern(imge_url_position[0], ".*\\(", "").replace(")", "");
        }
        if (isNeedCheckPostion) {//确认图片切割postion,两张图切割方式一样 background-position: -157px -58px
//          String[] positionS = StringUtils.split(StringUtils.remove(imge_url_position[1], "px").replace("-", "").replaceAll(".*:", ""), null);
          String[] positionS = StringUtils.split(StringUtils.removePattern(imge_url_position[1], "[^\\d+ \\s]"),null);
          postion[0] = Integer.parseInt(positionS[0]);
          postion[1] = Integer.parseInt(positionS[1]);
          int[] is = ImgTest.imgArray[i];
          if (is[0]!=postion[0]||is[1]!=postion[1]) {
            logger.debug("更新分割postion");
            ImgTest.imgArray[i] = postion;
          }
          System.out.println(ImgTest.imgArray);
          isNeedCheckPostion= false;
        }
      }
    }
    return url;
  }

对比图片获取位移方法（deCAPTCHA）是错的我就不放代码了，下面是其中还原图片用的方法，目前是其实审查元素后你就明白怎么还原这个图片了，这里是每次读的10px，58px

public static BufferedImage getGeetestImg(byte[] binary, int[][] imgArray) throws IOException {
    BufferedImage img = ImageIO.read(new ByteArrayInputStream(binary));
    List<BufferedImage> list = new ArrayList<>();
    for (int i=0;i< imgArray.length;i++) {
      BufferedImage subimage = img.getSubimage(imgArray[i][0], imgArray[i][1], 10, 58);
      list.add(subimage);
//      ImageIO.write(subimage, "jpg", new File("d:\\image\\imgs"+i+".jpg"));
    }
    BufferedImage mergeImageUp = null;
    BufferedImage mergeImageDown = null;
    int mid = list.size()>>>1;
    for (int i = 0; i <mid-1 ; i++) {
      mergeImageUp = mergeImage(mergeImageUp==null?list.get(i):mergeImageUp, list.get(i+1), true);
    }
    for(int i = mid;i<list.size()-1;i++){
      mergeImageDown = mergeImage(mergeImageDown==null?list.get(i):mergeImageDown,list.get(i+1), true);
    }
    img = mergeImage(mergeImageUp, mergeImageDown, false);
    return img;
  }
   public static BufferedImage mergeImage(BufferedImage img1,
        BufferedImage img2, boolean isHorizontal) throws IOException {
      int w1 = img1.getWidth();
      int h1 = img1.getHeight();
      int w2 = img2.getWidth();
      int h2 = img2.getHeight();
      // 从图片中读取RGB
      int[] ImageArrayOne = new int[w1 * h1];
      ImageArrayOne = img1.getRGB(0, 0, w1, h1, ImageArrayOne, 0, w1); // 逐行扫描图像中各个像素的RGB到数组中
      int[] ImageArrayTwo = new int[w2 * h2];
      ImageArrayTwo = img2.getRGB(0, 0, w2, h2, ImageArrayTwo, 0, w2);

      // 生成新图片
      BufferedImage DestImage = null;
      if (isHorizontal) { // 水平方向合并
        DestImage = new BufferedImage(w1+w2, h1, BufferedImage.TYPE_INT_RGB);
        DestImage.setRGB(0, 0, w1, h1, ImageArrayOne, 0, w1); // 设置上半部分或左半部分的RGB
        DestImage.setRGB(w1, 0, w2, h2, ImageArrayTwo, 0, w2);
      } else { // 垂直方向合并
        DestImage = new BufferedImage(w1, h1 + h2,
            BufferedImage.TYPE_INT_RGB);
        DestImage.setRGB(0, 0, w1, h1, ImageArrayOne, 0, w1); // 设置上半部分或左半部分的RGB
        DestImage.setRGB(0, h1, w2, h2, ImageArrayTwo, 0, w2); // 设置下半部分的RGB
      }

      return DestImage;
    }

2.使用selenium

后来我想着是我模拟鼠标这个动作哪里有问题，我就又找到了selenium（2.42.2）,他也能操作htmlunit关键他的鼠标动作好像封装比较完全

但是我尝试了以后发现了这个，HtmlUnitMouse这个动作没有实现

 public void mouseMove(Coordinates where, long xOffset, long yOffset) {
  throw new UnsupportedOperationException("Moving to arbitrary X,Y coordinates not supported.");
 }

好吧，于是调用chrome吧

System.setProperty("webdriver.chrome.driver","C:\\chromedriver.exe");
    Proxy proxy = new Proxy();
    //设置代理服务器地址
    proxy.setHttpProxy("127.0.0.1:8888");
//    DesiredCapabilities capabilities = DesiredCapabilities.htmlUnitWithJs();
    DesiredCapabilities capabilities = DesiredCapabilities.chrome();
    capabilities.setCapability(CapabilityType.PROXY, proxy);
//    final WebDriver driver = new HtmlUnitDriver(capabilities);
    WebDriver driver = new ChromeDriver(capabilities);
    driver.get("http://www.qixin.com/login");
    driver.manage().timeouts().implicitlyWait(10, TimeUnit.SECONDS);
     checkPage(driver,"return $('.gt_cut_fullbg_slice');");
    // 获取 网页的 title
    System.out.println("1 Page title is: " + driver.getTitle());
    // 通过 id 找到 input 的 DOM
    String pageSource = driver.getPageSource();
    System.out.println(pageSource);
    org.openqa.selenium.JavascriptExecutor executor = (org.openqa.selenium.JavascriptExecutor)driver;
    boolean equals = executor.executeScript("return document.readyState").equals("complete");
    int moveX =99;//移动位置
    if (equals) {
      WebElement element = driver.findElement(By.className("gt_slider_knob"));//(".gt_slider_knob"));
      Point location = element.getLocation();
      element.getSize();
      Actions action = new Actions(driver);
      //       action.clickAndHold().perform();// 鼠标在当前位置点击后不释放
//       action.clickAndHold(element).perform();// 鼠标在 onElement 元素的位置点击后不释放
//       action.clickAndHold(element).moveByOffset(location.x+99,location.y).release().perform(); //选中source元素->拖放到（xOffset,yOffset）位置->释放左键
       action.dragAndDropBy(element, location.x+moveX,location.y).perform();
//      action.dragAndDrop(element,newelement).perform();
      pageSource = driver.getPageSource();
    }
    //更新cookie
    Set<org.openqa.selenium.Cookie> cookies = driver.manage().getCookies();
    Set<Cookie> cookies2 = new HashSet<>();
    for (org.openqa.selenium.Cookie cookie : cookies) {
      cookies2.add((Cookie) new Cookie(cookie.getDomain(), cookie.getName(), cookie.getValue(), cookie.getPath(), cookie.getExpiry(), true));
    }
    for (Cookie cookie : cookies2) {
      org.apache.http.cookie.Cookie httpClient = cookie.toHttpClient();
    }
    System.out.println(pageSource);

这样提交的表单确实是有轨迹的，这里移动位置我先写了个固定值，可以由上面图片还原，以及一些开源的图片识别工具识别出位置。以上应该就能解决这个滑动验证码了

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

java selenium处理Iframe中的元素示例

java selenium 处理Iframe 中的元素有时候我们定位元素的时候,发现怎么都定位不了. 这时候你需要查一查你要定位的元素是否在iframe里面阅读目录什么是iframe iframe 就是HTML 中,用于网页嵌套网页的. 一个网页可以嵌套到另一个网页中,可以嵌套很多层. selenium 中提供了进入iframe 的方法 // 进入 id 叫frameA 的 iframe dr.switchTo().frame("frameA"); // 回到主窗口 dr.sw
java selenium 操作弹出窗口示例代码

selenium 中如何处理弹出窗口阅读目录原理测试页面的HTML Java 代码原理在代码里, 通过 Set<String> allWindowsId = driver.getWindowHandles(); 来获取到所有弹出浏览器的句柄, 然后遍历, 使用swithcto.window(newwindow_handle)方法. 就可以定位到新的窗口测试页面的HTML <html> <head> <title>常见web
java selenium 操作浏览器实例

本篇文章介绍selenium 操作浏览器阅读目录浏览器最大化前进,后退, 刷新截图操作模拟鼠标操作杀掉Windows浏览器进程浏览器最大化前进,后退, 刷新 public static void testBrowser(WebDriver driver) throws Exception { driver.get("http://www.cnblogs.com/tankxiao"); Thread.sleep(5000); // 浏览器最大化 driver.manage
java selenium操作弹出对话框示例讲解

Web 开发人员通常需要利用JavaScript弹出对话框来给用户一些信息提示, 包括以下几种类型阅读目录对话框类型测试页面 Selenium 操作对话框的代码对话框类型 1. 警告框: 用于提示用户相关信息的验证结果, 错误或警告等 2. 提示框: 用于提示用户在当前对话框中输入数据,一般需要用户单击取消或者确认按钮 3. 确认框: 用于提示用户确认或者取消某个操作,一般需要用户单击取消或者确认按钮测试页面用如下页面为例进行讲解, 包括了警告框,提示框,确认框 http://si
java selenium智能等待页面加载完成示例代码

java selenium 智能等待页面加载完成我们经常会碰到用selenium操作页面上某个元素的时候, 需要等待页面加载完成后, 才能操作. 否则页面上的元素不存在,会抛出异常. 或者碰到AJAX异步加载,我们需要等待元素加载完成后, 才能操作 selenium 中提供了非常简单,智能的方法,来判断元素是否存在. 阅读目录实例要求隐式等待显式等待实例要求实例:set_timeout.html 下面的html 代码, 点击click 按钮5秒后, 页面上会出现一个红色的div
java selenium元素定位大全

页面元素定位是自动化中最重要的事情, selenium Webdriver 提供了很多种元素定位的方法. 测试人员应该熟练掌握各种定位方法. 使用最简单,最稳定的定位方法. 阅读目录自动化测试步骤定位方法大全如何定位通过ID查找元素: By.id() 通过Name查找元素:By.name() 通过TagName查找元素: By.tagName() 通过ClassName 查找元素 By.className 通过LinkText查找元素 By.linkText(); 通过PartialL
java selenium教程之selenium详细介绍

Selenium 是目前用的最广泛的Web UI 自动化测试框架. 本系列文章,将深入简出来讲解selenium 的用法阅读目录 selenium 的命名 selenium 的意思是硒 (有点QTP 杀手的意思) QTP mercury 是水银硒可以对抗水银 QTP 目前的价格是三个单机版十万人民币左右, 越来越少的人用QTP了什么是selenium 一套软件工具,用来支持不同的自动化测试方法开源软件:可以根据需要来增加重构工具的某些功能跨平台:linux , wi
java selenium XPath 定位实现方法

xpath 的定位方法, 非常强大. 使用这种方法几乎可以定位到页面上的任意元素. 阅读目录什么是xpath xpath定位的缺点 testXpath.html 代码如下绝对路径定位方式使用浏览器调试工具,可以直接获取xpath语句绝对路径的缺点绝对路径和相对路径的区别相对路径定位方式使用索引号定位使用页面属性定位模糊定位starts-with关键字模糊定位contains关键字 text() 函数文本定位什么是xpath xpath 是XML Path的简称, 由于H
Java selenium处理极验滑动验证码示例

要爬取一个网站遇到了极验的验证码,这周都在想着怎么破解这个,网上搜了好多知乎上看到有人问了这问题,我按照这思路去大概实现了一下. 1.使用htmlunit(这种方式我没成功,模拟鼠标拖拽后轨迹没生成,可以跳过) 我用的是java,我首先先想到了用直接用htmlunit,我做了点初始化 private void initWebClient() { if (webClient != null) { return; } webClient = new WebClient(BrowserVersion.
selenium+java破解极验滑动验证码的示例代码

摘要分析验证码素材图片混淆原理,并采用selenium模拟人拖动滑块过程,进而破解验证码. 人工验证的过程 1.打开威锋网注册页面 2.移动鼠标至小滑块,一张完整的图片会出现(如下图1) 3.点击鼠标左键,图片中间会出现一个缺块(如下图2) 4.移动小滑块正上方图案至缺块处 5.验证通过 selenium模拟验证的过程加载威锋网注册页面下载图片1和缺块图片2 根据两张图片的差异计算平移的距离x 模拟鼠标点击事件,点击小滑块向右移动x 验证通过详细分析 1.打开chrome浏览器控制台,会
Python3网络爬虫开发实战之极验滑动验证码的识别

上节我们了解了图形验证码的识别,简单的图形验证码我们可以直接利用 Tesserocr 来识别,但是近几年又出现了一些新型验证码,如滑动验证码,比较有代表性的就是极验验证码,它需要拖动拼合滑块才可以完成验证,相对图形验证码来说识别难度上升了几个等级,本节来讲解下极验验证码的识别过程. 1. 本节目标本节我们的目标是用程序来识别并通过极验验证码的验证,其步骤有分析识别思路.识别缺口位置.生成滑块拖动路径,最后模拟实现滑块拼合通过验证. 2. 准备工作本次我们使用的 Python 库是 Selen
Thinkphp极验滑动验证码实现步骤解析

对于建站的筒子们来说:垃圾广告真是让人深恶痛绝: 为了清净:搞个难以识别的验证码吧:又被用户各种吐槽: 直到后来出现了极验这个滑动的验证码:这真是一个体验好安全高的方案: 官网:http://www.geetest.com/(此处应该有广告费) 示例项目:https://github.com/baijunyao/thinkphp-bjyadmin 一:注册获取key 注册:创建应用:获取key: 二:导入sdk /ThinkPHP/Library/Org/Xb/Geetest.class.php
Python破解极验滑动验证码详细步骤

极验滑动验证码以上图片是最典型的要属于极验滑动认证了,极验官网:http://www.geetest.com/. 现在极验验证码已经更新到了 3.0 版本,截至 2017 年 7 月全球已有十六万家企业正在使用极验,每天服务响应超过四亿次,广泛应用于直播视频.金融服务.电子商务.游戏娱乐.政府企业等各大类型网站对于这类验证,如果我们直接模拟表单请求,繁琐的认证参数与认证流程会让你蛋碎一地,我们可以用selenium驱动浏览器来解决这个问题,大致分为以下几个步骤 1.输入用户名,密码 2.点击
thinkphp整合系列之极验滑动验证码geetest功能

给一个央企做官网,登录模块用的thinkphp验证码类.但是2019-6-10到12号,国家要求央企检验官网漏洞,防止黑客攻击,正直贸易战激烈升级时期,所以各事业单位很重视官网安全性,于是乎集团总部就委托了宁波一个专业检测公司用专业工具检测出,后台验证码能用打码工具暴力破解,发函要求整改.so,就有了下面的极速验证图形官网:http://www.geetest.com/ 一:注册获取key 注册:创建应用:获取key: 二:导入sdk /ThinkPHP/Library/Org/Xb/Geet
Java Selenium实现多窗口切换的示例代码

在web应用中,常常会遇见点击某个链接会弹出一个新的窗口,或者是相互关联的web应用 ,这样要去操作新窗口中的元素,就需要主机切换到新窗口进行操作.WebDriver 提供了switchTo().window()方法可以实现在不同的窗口之间切换. 获取当前窗口浏览器句柄:driver.getWindowHandle(); 获取所有窗口的浏览器句柄到当前会话:driver.getWindowHandles(); 用于不同窗口的切换:switchTo().window(); 在页面操作过程中有时候点
Java实现仿淘宝滑动验证码研究代码详解

通过下面一张图看下要实现的功能,具体详情如下所示: 现在我就来介绍些软件的其它功能.希望大家有所受益. 模拟人为搜索商品在刷单的时候,不能直接拿到一个商品网址就进入购买页面吧,得模拟人为搜索. 在这一个过程中有两个难点: 1)商品列表的异步加载 ; 2)翻页并且截图; 在园子里,我就不在关公面前耍大刀了. 直接上关键代码: i:搜索商品,并且翻页 public bool? SearchProduct(TaskDetailModel taskDetailData) { bool? result
Java实现滑动验证码的示例代码

最近滑动验证码在很多网站逐步流行起来,一方面对用户体验来说,比较新颖,操作简单,另一方面相对图形验证码来说,安全性并没有很大的降低.当然到目前为止,没有绝对的安全验证,只是不断增加攻击者的绕过成本. 接下来分析下滑动验证码的核心流程: 后端随机生成抠图和带有抠图阴影的背景图片,后台保存随机抠图位置坐标前端实现滑动交互,将抠图拼在抠图阴影之上,获取到用户滑动距离值,比如以下示例前端将用户滑动距离值传入后端,后端校验误差是否在容许范围内. 这里单纯校验用户滑动距离是最基本的校验,出于更高的安全考

Java selenium处理极验滑动验证码示例

相关推荐

随机推荐