基于selenium-java封装chrome、firefox、phantomjs实现爬虫

2025-02-17 18:36:57

2017年一直以来在公司负责爬虫项目相关工程，主要业务有预定、库存、在开发中也遇到很多问题，随手记录一下，后续会持续更新。

chrome、firefox、phantomjs插件安装和版本说明
基于selenium-java封装chrome、firefox、phantomjs实现爬虫

maven版本说明

  <!-- +++|selenium|+++ -->
    <dependency>
      <groupId>org.seleniumhq.selenium</groupId>
      <artifactId>selenium-java</artifactId>
      <version>3.5.1</version>
    </dependency>
    <!-- +++|phantomjsdriver|+++ -->
    <dependency>
      <groupId>com.github.detro.ghostdriver</groupId>
      <artifactId>phantomjsdriver</artifactId>
      <version>1.1.0</version>
    </dependency>

chrome插件配置

下载地址：chromedriver下载地址选择本地系统对应的chrome版本安装，工程下面有一个对应的目录是：Plugin/chromedriver_win32.zip，对应chrmoe版本是Supports Chrome v60-62

直接运行项目中示例

public class ChromeTest {
public static void main(String[] args) {
  WebDriver webDriver = null;
  try {
    webDriver = WebDriverUtil.createChromeWebDriver("D:\\webdrvier\\chromedriver.exe");//修改路径
    webDriver.get("https://www.baidu.com/");
    System.out.println(webDriver.getTitle());
  } catch (Exception e) {
    e.printStackTrace();
  } finally {
    if (webDriver != null) {
      webDriver.close();
    }
  }
}
}

chrome配置插件是最简单的，linux上面只需要把插件换成linux版本即可

firefox

下载插件地址：geckodriver下载地址，选择本地系统对应的firefox版本安装，工程下面有一个对应的目录是：Plugin/geckodriver-v0.18.0-win64.zip，对应firefox版本是Firefox Setup 50.0(64位)、其他版本没有测试过

firefox下载地址、selenium-java版本和geckodriver版本更新迭代不一致，导致在搭建环境时很容易出现一系列问题。

直接运行项目中示例

public class FireFoxTest {
  public static void main(String[] args) {
    WebDriver webDriver = null;
    try {
      webDriver = WebDriverUtil.createFirefoxWebDriver("D:\\webdrvier\\Firefox\\geckodriver_18.exe");
      webDriver.get("https://book.douban.com/tag/");
      Set<String> tagSet = new HashSet<>();
      //获取豆瓣标签
      List<WebElement> divWebElement = webDriver.findElements(By.cssSelector("#content > div > div.article > div:nth-child(2) > div"));
      for (WebElement webElement : divWebElement) {
        List<WebElement> aWebElement = webElement.findElements(By.cssSelector("a"));
        for (WebElement element : aWebElement) {
          tagSet.add(element.getText());
        }
      }
      System.out.println(tagSet);
      //点击小说标签
      WebElement webElement = webDriver.findElement(By.cssSelector("#content > div > div.article > div:nth-child(2) > div:nth-child(1) > table > tbody > tr:nth-child(1) > td:nth-child(1) > a"));
      webElement.click();
      System.out.println(webDriver.getTitle());
    } catch (Exception e) {
      e.printStackTrace();
    } finally {
      if (webDriver != null) {
        webDriver.quit();
        webDriver.close();
      }
    }
  }
}

phantomjs

下载插件地址phantomjs插件地址1、phantomjs插件地址2、下载有些慢。phantomjs是没有界面的，所以只需要下载插件即可。

直接运行项目中示例

public class PhantomjsTest {
public static void main(String[] args) {
  WebDriver webDriver = null;
  try {
    webDriver = WebDriverUtil.createPhantomjsWebDriver("D:/webdrvier/phantomjs-1.9.8-windows/phantomjs.exe");
    webDriver.get("https://www.baidu.com/");
    System.out.println(webDriver.getTitle());
  } catch (Exception e) {
    e.printStackTrace();
  } finally {
    if (webDriver != null) {
      webDriver.close();
    }
  }
}
}

到此这篇关于基于selenium-java封装chrome、firefox、phantomjs实现爬虫的文章就介绍到这了,更多相关selenium java封装爬虫内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

java+selenium爬取图片签名的方法

本文实例为大家分享了java+selenium爬取图片签名的具体实现方法,供大家参考,具体内容如下学习记录: 1.注意对应的版本非常重要,使用selenium得下载与游览器版本相对应的插件,有火狐和谷歌我用的谷歌,贴下谷歌driver的插件查看谷歌版本: 2.插件存放路径 3.获取签名图片存放路径 4.Controller代码如下 @ResponseBody @RequestMapping(value = "signatureGenerationv") public String
基于selenium-java封装chrome、firefox、phantomjs实现爬虫

2017年一直以来在公司负责爬虫项目相关工程,主要业务有预定.库存.在开发中也遇到很多问题,随手记录一下,后续会持续更新. chrome.firefox.phantomjs插件安装和版本说明基于selenium-java封装chrome.firefox.phantomjs实现爬虫项目下载地址 maven版本说明  <dependency> <groupId>org.seleniumhq.selenium</gr
python基于Selenium的web自动化框架

1 什么是selenium Selenium 是一个基于浏览器的自动化工具,它提供了一种跨平台.跨浏览器的端到端的web自动化解决方案.Selenium主要包括三部分:Selenium IDE.Selenium WebDriver 和Selenium Grid: Selenium IDE:Firefox的一个扩展,它可以进行录制回放,并可以把录制的操作以多种语言(例如java,python等)的形式导出成测试用例. Selenium WebDriver:提供Web自动化所需的API,主要用作浏览
Python 基于Selenium实现动态网页信息的爬取

目录一.Selenium介绍与配置 1.Selenium简介 2. Selenium+Python环境配置二.网页自动化测试 1.启动浏览器并打开百度搜索 2.定位元素三.爬取动态网页的名人名言 1. 网页数据分析 2. 翻页分析 3.爬取数据的存储 4. 爬取数据四.爬取京东网站书籍信息五.总结一.Selenium介绍与配置 1.Selenium简介 Selenium 是ThoughtWorks专门为Web应用程序编写的一个验收测试工具.Selenium测试直接运行在浏览器中,可以
Pythonr基于selenium如何实现不同商城的商品价格差异分析系统

目录 1. 前言 2.程序设计流程 2.1 需求分析: 2.2 认识 selenium 2.3 功能函数设计 3. 总结 1. 前言 selenium 原本是一款自动化测试工具,因其出色的页面数据解析和用户行为模拟能力而常用于爬虫程序中,致使爬虫程序的爬取过程更简单.快捷. 爬虫程序与其它类型程序相比较,本质一样,为数据提供处理逻辑,只是爬虫程序的数据来源于 HTML 代码片段中. 怎样准确查找到页面中数据所在的标签(或叫节点.元素.组件)就成了爬虫程序的关键,只有这一步成立,后续的数据提取.清
基于Vue如何封装分页组件

使用Vue做双向绑定的时候,可能经常会用到分页功能接下来我们来封装一个分页组件先定义样式文件 pagination.css ul, li { margin: 0px; padding: 0px; } .page-bar { -webkit-touch-callout: none; -webkit-user-select: none; -khtml-user-select: none; -moz-user-select: none; -ms-user-select: none; user-se
Scrapy基于selenium结合爬取淘宝的实例讲解

在对于淘宝,京东这类网站爬取数据时,通常直接使用发送请求拿回response数据,在解析获取想要的数据时比较难的,因为数据只有在浏览网页的时候才会动态加载,所以要想爬取淘宝京东上的数据,可以使用selenium来进行模拟操作对于scrapy框架,下载器来说已经没多大用,因为获取的response源码里面没有想要的数据,因为没有加载出来,所以要在请求发给下载中间件的时候直接使用selenium对请求解析,获得完整response直接返回,不经过下载器下载,上代码 from selenium im
Python如何基于selenium实现自动登录博客园

这篇文章主要介绍了Python如何基于selenium实现自动登录博客园,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下需要做的准备: 本文章是使用Chrome,所以需要Chormedriver.exe,具体的下载过程可以百度查到 Selenium是一种自动化测试工具,能模拟浏览器的行为,所以今天我就模拟一下浏览器登陆博客园的行为. 首先,分析问题,登陆博客园需要做些什么: 1.打开浏览器 2.输入博客园主页的网址 3.点击登陆按钮,等待页面跳
selenium+python配置chrome浏览器的选项的实现

1. 背景在使用selenium浏览器渲染技术,爬取网站信息时,默认情况下就是一个普通的纯净的chrome浏览器,而我们平时在使用浏览器时,经常就添加一些插件,扩展,代理之类的应用.相对应的,当我们用chrome浏览器爬取网站时,可能需要对这个chrome做一些特殊的配置,以满足爬虫的行为. 常用的行为有: 禁止图片和视频的加载:提升网页加载速度. 添加代理:用于翻墙访问某些页面,或者应对IP访问频率限制的反爬技术. 使用移动头:访问移动端的站点,一般这种站点的反爬技术比较薄弱. 添加扩展:像
python 基于selenium实现鼠标拖拽功能

1.准备html文件首先我们需要准备一个鼠标滑动的html文件,用来演示鼠标滑动的效果,注意需要将我们的html文件放在自己的服务器上, 这样我们才能够通过selenium来进行验证.html文件如下: <html> <head> <meta charset="utf-8" /> <style> body { margin: 0; padding: 0; } input{ appearance:none; -moz-appearance
python基于selenium爬取斗鱼弹幕

针对弹幕的爬取我们如果只需要获取看到的网页里面的而数据,使用selenium就能实现,对于直播平台来说,往往有第三方平台api让你获取数据(可以获取发弹幕,发弹幕者的名字礼物等等,这需要客户端向弹幕服务器发送登录请求,心跳信息的发送等等)只获取弹幕信息储存到txt文件中,上代码,上图片代码如下: import time from selenium import webdriver chrome_options = webdriver.ChromeOptions() # 使用headless无界

基于selenium-java封装chrome、firefox、phantomjs实现爬虫

相关推荐

随机推荐