在linux系统下部署selenium爬虫程序介绍

目录
  • 前言
  • 一、selenium是什么?
  • 二、使用步骤
    • 1.引入库
    • 2.测试代码
  • 三、部署程序
    • 1.安装chrome
    • 2.安装chromedriver驱动
    • 3.运行测试代码
  • 总结

前言

我这里是工作需要把selenium 爬虫程序部署到Linux 服务器上面 顺便跟大家交流一下 如果有兴趣的话可以看一下


一、selenium是什么?

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样, 爬虫用它来抓取一些js动态加载的数据

二、使用步骤

1.引入库

代码如下

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options  # 使用无头浏览器
from selenium.webdriver import ChromeOptions
chrome_options = Options()
options = ChromeOptions()
options.add_experimental_option('excludeSwitches', ['enable-automation']) # =>去掉浏览器正在受到自动测试软件的控制
options.add_experimental_option('useAutomationExtension', False)
chrome_options.add_argument("--headless")  # => 为Chrome配置无头模式
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--disable-dev-shm-usage')

2.测试代码

代码如下:

s = Service(r"/home/driver/chromedriver")
driver = Chrome(
     service=s, options=chrome_options
 )
 driver.get("https://www.baidu.com")
 print(diiver.title)

三、部署程序

1.安装chrome

命令如下:

yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm
检查chrome的版本
google-chrome --version

2.安装chromedriver驱动

命令如下:

按照对应的chrome版本下载chromedriver驱动
地址: https://npm.taobao.org/mirrors/chromedriver
我的版本号是: 96.0.4664.45
wget https://npm.taobao.org/mirrors/chromedriver/96.0.4664.45/chromedriver_linux64.zip
yum install -y unzip zip
unzip chromedriver_linux64.zip # 解压zip文件
mkdir driver #新建文件夹用来存放驱动
chmod 777 driver/chromedriver # 这是权限 我这里给的是 777

3.运行测试代码

新建test.py文件

vi test.py


保存 test.py run 一下看看

看到这个我么就算请求成功了

总结

到此这篇关于在linux系统下部署selenium爬虫程序介绍的文章就介绍到这了,更多相关linux selenium爬虫程序内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 基于linux配置selenium环境并实现运行

    一.在linux中使用selenium 1.安装chrome 用下面的命令安装Google Chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 也可以先下载至本地,然后安装 wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm yum install ./g

  • 在linux系统下部署selenium爬虫程序介绍

    目录 前言 一.selenium是什么? 二.使用步骤 1.引入库 2.测试代码 三.部署程序 1.安装chrome 2.安装chromedriver驱动 3.运行测试代码 总结 前言 我这里是工作需要把selenium 爬虫程序部署到Linux 服务器上面 顺便跟大家交流一下 如果有兴趣的话可以看一下 一.selenium是什么? Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样, 爬虫用它来抓取一些js动态加载的数据 二.使

  • Linux系统下部署项目的设置方法

    一.修改防火墙设置,开放对应的端口 修改Linux系统防火墙配置需要修改 /etc/sysconfig/iptables 这个文件,如果要开放哪个端口,在里面添加一条 -A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 8080 -j ACCEPT 就可以了,其中 8080 是要开放的端口号,然后重新启动linux的防火墙服务 二.安装jdk 1.检查一下系统中的jdk版本 [root@localhost softw

  • linux系统下部署项目访问报404错误的解决方法

    碰到了一个比较奇怪的问题,我在linux系统上安装了一个tomcat服务器,我将一个项目部署到了这个服务器上,然后我去访问这个tomcat,访问成功: 紧接着,我访问我部署项目的index.jsp页面,出现了404: 找了好久问题,最后发现当我把web.xml文件中的filter等注释掉后,可以正常访问: 注释掉后,我又访问了一下,是可以访问的: 暂时还没太明白这是什么问题,我又找了一个一样的项目,这次是可以访问的,具体原因还不清楚,本人觉得是文件权限问题,但是查了一下权限是一样的,可能和roo

  • Linux环境下部署Consul集群

    目录 1.Consul概念 1.1什么是Consul? 1.2Consul的特点 1.3Consul架构 1.4Consul的应用场景包括服务发现.服务隔离与服务配置 2.Consul在linux上的集群部署 2.1前期准备 2.2集群部署 1.Consul概念 1.1什么是Consul? Consul是一种服务网格解决方案,是HashiCorp公司推出的开源组件,由Go语言开发,部署起来很容易,只需要极少的可执行程序和配置.同时Consul也是一个分布式的,高度可用的系统,它附带了一个简单的内

  • Linux系统docker部署.net core3.1的详细步骤

    此篇文章演示基本的基于docker部署.netcore服务,linux系统腾讯云ubuntu,.net core版本3.1. 1.安装docker apt install docker.io 2.拉取.net core依赖镜像 docker pull mcr.microsoft.com/dotnet/core/aspnet:latest 3.创建.net core3.1项目 选择docker支持,会生成dockerFile配置文件如图: 4.编写dockerfile文件,经删减后为: FROM

  • Linux系统下Mysql使用简单教程(一)

    如果你会查询这些相关的问题,说明你是一个正在或者准备从事IT的程序猿,对于一个程序猿而言,不会使用linux系统的程序猿不是一好的程序猿哦!因为windows有时候真的让人很抓狂,而本人也相信没有什么习惯是不可以改变的.so以下都是在linux系统中的使用: 安装mysql命令 :$ sudo apt-get install -y mysql-server 查看mysql的版本命令(注意-V是大写,不然会出现如下错误):$ mysql -V 启动mysql命令(其它关闭,重启等功能只需将star

  • linux系统下hosts文件详解及配置

    hosts文件 hosts -- the static table lookup for host name(主机名查询静态表). hosts文件是Linux系统上一个负责ip地址与域名快速解析的文件,以ascii格式保存在/etc/目录下.hosts文件包含了ip地址与主机名之间的映射,还包括主机的别名.在没有域名解析服务器的情况下,系统上的所有网络程序都通过查询该文件来解析对应于某个主机名的ip地址,否则就需要使用dns服务程序来解决.通过可以将常用的域名和ip地址映射加入到hosts文件中

  • Linux系统下安装jdbc与tomcat的图文教程

    一.下载Linux版本的jdbc与tomcat 1.1 下载Linux版本的jdbc: 1.1.1 1.1.2 1.1.3 在进行1.1.3操作之前得先勾选我同意协议 1.1.4 下载完成 1.2下载Linux版本的tomcat 1.2.1 1.2.2 1.2.3 下载完成 二.将下载好的两个压缩包解压 如果遇到一些不能操作的问题,得给文件夹或者文件设置权限2.1在Linux 的root根目录下创建software 指令为: 在root目录下会多出 2.2把两个包导入到software中,然后解

  • 详解linux系统下pid的取值范围

    一般PID_MAX=0x8000(可改),因此进程号的最大值为0x7fff,即32767. 进程号0-299保留给daemon进程. 现在的内核好像没有这个限制了,<linux内核设计与实现>上说为了与老版本的unix和linux兼容,pid的最大值默认是32767(short int的最大值),如果你需要的话还可以不考虑和老版本兼容,修改/proc/sys/kernel/pid_max来提高上限用echo重新写入一个数值到这个文件即可. 由于一般机器不可能同时跑那么多进程+线程,所以3276

  • Unix/Linux系统下的nobody用户与nologin详细介绍

    Unix/Linux系统下的nobody用户是什么? 1.Windows系统在安装后会自动建立一些用户帐户,在Linux系统中同样有一些用户帐户是在 系统安装后就有的,就像Windows系统中的内置帐户一样. 2.它们是用来完成特定任务的,比如nobody和ftp等,我们访问LinuxSir.Org的网页程序时,官网的服务器就是让客户以'nobody'身份登录的(相当于Windows系统中的匿名帐户); 我们匿名访问ftp时,会用到用户ftp或nobody. 3.首先,nobody是一个普通用户

随机推荐