教你如何使用Python selenium

2025-01-31 18:52:59

一、了解selenium

Selenium是一个用于测试网站的自动化测试工具，支持各种浏览器包括Chrome、Firefox、Safar等浏览器（需要下载驱动），之前是用来做测试网站的，后来发现也可以用来爬取数据（估计开发者都没想到他开发的selenium被别人广泛适用于爬虫领域——笑）。

二、selenium的下载

1.我这里是使用的Chrom浏览器！注意不要忽视这个地方

2.python中selenium库的下载（pycharm系列）

由于我用的pycharm的虚拟环境，所以我只需要在pycharm的终端下载第三方库就行了，简单，方便，pycharm真是个好用的东西——O(∩_∩)O~

打开pycharm
打开pycharm的终端
输入pip install selenium -i https://pypi.doubanio.com/simple (这是使用国内镜像网站下载selenium，下载速度较快)
等待片刻，结束
pip list ——查看自己下载的第三方库，检查是否成功

3.python中selenium库的下载（cmd系列）

win+R输入cmd
打开cmd
输入pip install selenium -i https://pypi.doubanio.com/simple (这是使用国内镜像网站下载selenium，下载速度较快)
等待片刻，结束
pip list ——查看自己下载的第三方库，检查是否成功

4.selenium驱动的下载（官网都是英文，看不懂）

打开你的Chrom浏览器查看你是什么版本的（帮助->about chrom），查看版本号
点击右边这个蓝色的小可爱，没错我是小可爱，找到与你的chrom浏览器版本相匹配的（没有匹配的，相近的也可以，win都是32位的），下载
没了，没错，你没看错，真的没了

5.selenium的环境配置，没错又是这个烦人的环境配置真想给他一脚

想必，这个时候已经下载好了吧
下载好以后，很简单，解压，然后——看3
最好（但是不是必要）创建一个文件夹放你解压出来的geckodriver，然后复制你这个文件当前的路径（ctrl + c）
打开环境变量（此电脑->右键->属性->高级系统配置->环境变量），在系统变量找到path，新建，ctrl + v
完事

6.打开你的pycharm，新建一个py文件去写出以下代码

from selenium import webdriver
import time
# 导入时间包和selenium包
huohu = webdriver.Chrome()
# 创建一个chome的selenium对象
huohu.get("http://www.elong.com/")
# 打开网站
huohu.quit()
# 退出

写好后，运行
好，报错了，对，报错了，可能你们不会报错，反正我报错了

报错信息是：selenium.common.exceptions.WebDriverException: Message: ‘chromedriver' executable needs to be in PATH.

意思是，你需要吧chromdriver放到路径，我照着做了，可是呢，还是这个报错！

这是什么情况？？明明我是按照教程来的啊

着急的我去群里请求大佬，大佬们直接无视我——::>_<::

然后又去找它——>我们，左翻翻，右找找，终于找到了解决方案：

将chromdriver放在python解释器的位置，我照着做了之后，就成功了。。。

好家伙，上面教程不是说随便放的吗？…

哎，人与人之间最基本的信任都没有了

三、selenium的基本使用

from selenium import webdriver
# 导包
driver = webdriver.Chrome()
# 创建一个浏览器对象
driver.get("https://m.elong.com/")
# 访问艺龙网
driver.quit()
# 关闭浏览器，也可以不关闭，但是最好关闭，养成一个打开后不忘记关闭的好习惯

然后我们就会发现，浏览器界面一闪而过（为什么？因为页面渲染完成后，就直接退出了），那么如何才能让我们能够观察到呢？有请我们的time模块，让它睡会儿，就能观察到了
这样改

from selenium import webdriver
import time
# 导包
driver = webdriver.Chrome()
driver.get("https://m.elong.com/")
time.sleep(5)
# 页面渲染完成后让它睡5s，这样就能观察到了
driver.quit()

OK，看到，代码替我们打开了这个网址，并且展示了5s后关闭了

四、结语

好了，相信大家已经学会如何使用筷子了，那么让我们去动用我们的筷子去把这个网站抓下来吧——笑，玩个老梗
今天的笔记就到这里了（主要是不想写了，一天当然不可能只学会点这玩意），拜拜

到此这篇关于教你如何使用Python selenium的文章就介绍到这了,更多相关Python selenium内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

python实现selenium网络爬虫的方法小结

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题,selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转.输入.点击.下拉等,来拿到网页渲染之后的结果,可支持多种浏览器,这里只用到谷歌浏览器. 1.selenium初始化方法一:会打开网页 # 该方法会打开goole网页 from selenium import webdriver url = '网址' driver = webdriver.Chrom
python爬虫selenium模块详解

selenium模块 selenium基本概念 selenium优势便捷的获取网站中动态加载的数据便捷实现模拟登陆 selenium使用流程: 1.环境安装:pip install selenium 2.下载一个浏览器的驱动程序(谷歌浏览器) 3.实例化一个浏览器对象基本使用代码 from selenium import webdriver from lxml import etree from time import sleep if __name__ == '__main__': b
Python爬虫中Selenium实现文件上传

前言:大部分的文件上传功能都是用input标签实现,这样就完全可以把它看作一个输入框,可以通过send_keys()指定文件进行上传了. 本章中用到的关键方法如下: send_keys():上传文件或者输入文本 from selenium import webdriver import time driver = webdriver.Chrome() driver.get('http://file.yiyuen.com/file/') # 定位上传按钮,添加本地文件 driver.find_el
python爬虫利用selenium实现自动翻页爬取某鱼数据的思路详解

基本思路: 首先用开发者工具找到需要提取数据的标签列利用xpath定位需要提取数据的列表然后再逐个提取相应的数据: 保存数据到csv: 利用开发者工具找到下一页按钮所在标签: 利用xpath提取此标签对象并返回: 调用点击事件,并循环上述过程: 最终效果图: 代码: from selenium import webdriver import time import re class Douyu(object): def __init__(self): # 开始时的url self.start
python爬虫之利用Selenium+Requests爬取拉勾网

一.前言利用selenium+requests访问页面爬取拉勾网招聘信息二.分析url 观察页面可知,页面数据属于动态加载所以现在我们通过抓包工具,获取数据包观察其url和参数 url="https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false" 参数: city=%E5%8C%97%E4%BA%AC ==>城市 first=true ==>无用 pn=
Python selenium模拟网页点击爬虫交管12123违章数据

在上一篇文章<Python教程-模拟网页点击爬虫定位系统>讲解怎么通过模拟点击方式爬取车辆定位数据,本次介绍怎么以模拟点击方式进入交管12123爬取车辆违章数据,本文直接讲解过程,使用的命令解释见上一篇文章.本文同<Python教程-模拟网页点击爬虫定位系统>同样为企业中实际的爬虫案例,如果之后想进入车企行业可以做个了解. 准备工具:spyder.selenium库.google浏览器及对应版本的chromedriver.exe 效果注:分享此案例目的是为了帮助同行解放双手,更好
Python爬虫之Selenium实现关闭浏览器

前言:WebDriver提供了两个关闭浏览器的方法,一个是前边使用quit()方法,另一个是close()方法 close():关闭当前窗口 quit():关闭所有窗口 quit()是关闭所有窗口,就不过多说了,测试一下close() from selenium import webdriver from selenium.webdriver.common.keys import Keys import time driver = webdriver.Chrome() driver.get("h
Python爬虫之Selenium下拉框处理的实现

在我们浏览网页的时候经常会碰到下拉框,WebDriver提供了Select类来处理下拉框,详情请往下看: 本章中用到的关键方法如下: select_by_value():设置下拉框的值 switch_to.alert.accept():定位并接受现有警告框(详情请参考Python爬虫 - Selenium(9)警告框(弹窗)处理) click():鼠标点击事件(其他鼠标事件请参考Python爬虫 - Selenium(5)鼠标事件) move_to_element():鼠标悬停(详情请参考Pyt
教你怎么用python selenium实现自动化测试

一.安装selenium 打开命令控制符输入:pip install -U selenium 火狐浏览器安装firebug:www.firebug.com,调试所有网站语言,调试功能 Selenium IDE 是嵌入到Firefox 浏览器中的一个插件,实现简单的浏览器操作的录制与回放功能,IDE 录制的脚本可以可以转换成多种语言,从而帮助我们快速的开发脚本,下载地址:https://addons.mozilla.org/en-US/firefox/addon/selenium-ide/ 如何
教你如何使用Python selenium

一.了解selenium Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome.Firefox.Safar等浏览器(需要下载驱动),之前是用来做测试网站的,后来发现也可以用来爬取数据(估计开发者都没想到他开发的selenium被别人广泛适用于爬虫领域--笑). 二.selenium的下载 1.我这里是使用的Chrom浏览器 !注意不要忽视这个地方 2.python中selenium库的下载(pycharm系列) 由于我用的pycharm的虚拟环境,所以我只需要在py
教你怎么用Python selenium操作浏览器对象的基础API

前言相比于高大上的各种Selenium进阶指南,个人认为夯实基础至关重要. 在Selenium测试框架的API中,主要分为三大类: 1.对浏览器本身的相关操作. 2.对浏览器页面中,元素的定位操作. 3.对浏览器页面中元素进行定位后,对该元素的一些操作.如:点击.输入等操作. 我们本篇文章先说说Selenium框架对浏览器对象的基础操作. 一.导入Selenium库 # 导入Selenium驱动 from selenium import webdriver 二.创建浏览器对象即:打开一个浏览
教你用Python+selenium搭建自动化测试环境

一.环境搭建 1.安装python+pycharm软件 .python安装网址官网:https://www.python.org/about/ 根据自己的电脑系统选择最新版本下载到本地,选择安装路径并配置好环境变量验证安装是否成功搜索中录入cmd 打开命令窗口录入python显示一下版本号表示安装成功 2.pycharm软件安装地址:https://www.jetbrains.com/pycharm/download/#section=windows 根据自己的需求选择专业版或者社区版
手把手教你搭建python+selenium自动化环境(图文)

目录第一步:安装python解释器第二步:安装pycharm编译器. 第三步:安装selenium库第四步:下载浏览器的驱动第五步:打开pycharm写第一个自动化demo验证环境是否有问题快速+简单搭建环境.如果有问题,欢迎进群讨论留言. 第一步:安装python解释器官网地址:https://www.python.org/ 自动化测试最好下载3.7的. 下载完成后打开这个文件,然后傻瓜式安装. 安装好后,win+r打开命令行窗口,输入python.如果显示下图,就说明安装成功.
教你怎么用python批量登录带有验证码的网站

一.介绍原理为使用selenium驱动chorme打开一个新的进程并打开数组中的网址,之后程序自动输入我们事先填入的账号密码,通过已实现的验证码识别模块填写验证码进行登录.登陆完成后自动切换页面,进行下一个页面的登录二.准备部署环境:win10 开发环境:python2.7 chrome版本89.0.4389.128 三.实践 3.1 下载驱动设置查看chorme版本下载对应版本的chromedriver 解压后,将chromedriver.exe分别放进chrome浏览器目录和 P
用Python selenium实现淘宝抢单机器人

一.痛点各大电商在一些特定的日子都会开启促销活动,如618.双十一等,有时还得盯着时间抢限量发售的商品,但你的成功率高吗?是否经常会遇到App一直加载,刷新后发现商品被一扫而光了?事实是,很多和你竞争抢购商品的对手比你的手更快更准,因为他们很多都是能精准执行命令的机器人. 气不气?没关系这篇文章将手把手教你零基础建设一个自己的机器人,帮你在设定好的时间自动下单,再也不用为抢不到心爱的宝贝烦恼了! 二.准备工作在建设机器人之前,请确保你准备好了如下工具: 一台电脑:不需要多快多新,能用就行 C
Python selenium 三种等待方式详解(必会)

很多人在群里问,这个下拉框定位不到.那个弹出框定位不到-各种定位不到,其实大多数情况下就是两种问题:1 有frame,2 没有加等待.殊不知,你的代码运行速度是什么量级的,而浏览器加载渲染速度又是什么量级的,就好比闪电侠和凹凸曼约好去打怪兽,然后闪电侠打完回来之后问凹凸曼你为啥还在穿鞋没出门?凹凸曼分分中内心一万只羊驼飞过,欺负哥速度慢,哥不跟你玩了,抛个异常撂挑子了. 那么怎么才能照顾到凹凸曼缓慢的加载速度呢?只有一个办法,那就是等喽.说到等,又有三种等法,且听博主一一道来: 1. 强制等待
Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录

本文介绍了Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录,分享给大家,具体如下: Python 2.7 IDE Pycharm 5.0.3 Firefox浏览器:47.0.1 Selenium PIL Pytesser Tesseract 扯淡我相信每个脚本都有自己的故事,我这个脚本来源于自己GRD教务系统,每次进行登录时,即使我输入全部正确,第一次登录一定是登不上去的!我不知道设计人员什么想法?难道是为了反爬机制?你以为一次登不上,我tm就不爬了?我
Python selenium 父子、兄弟、相邻节点定位方式详解

今天跟大家分享下selenium中根据父子.兄弟.相邻节点定位的方法,很多人在实际应用中会遇到想定位的节点无法直接定位,需要通过附近节点来相对定位的问题,但从父节点定位子节点容易,从子节点定位父节点.定位一个节点的哥哥节点就一筹莫展了,别急,且看博主一步步讲解. 1. 由父节点定位子节点最简单的肯定就是由父节点定位子节点了,我们有很多方法可以定位,下面上个例子: 对以下代码: <html> <body> <div id="A"> <!--父节

教你如何使用Python selenium

一、了解selenium

二、selenium的下载

三、selenium的基本使用

四、结语

相关推荐

随机推荐