Python+Selenium+phantomjs实现网页模拟登录和截图功能(windows环境)

2024-09-28 01:32:54

本文全部操作均在windows环境下

安装 Python

Python是一种跨平台的计算机程序设计语言，它可以运行在Windows、Mac和各种Linux/Unix系统上。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发

去Python的官网 www.python.org 下载安装

安装时勾选pip (python包管理工具)，同时安装pip

python安装好之后，打开命令行工具cmd，输入“python -V”,然后敲回车，如果出现python版本号，则表示安装成功

安装 selenium

selenium 是一个用于Web应用程序测试的工具。selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）

通过python包管理工具pip安装

pip install selenium

安装 phantomjs

phantomJS是一个基于webkit的javaScript API。它使用QtWebKit作为它核心浏览器的功能，使用webkit来编译解释执行javaScript代码。任何你可以基于在webkit浏览器做的事情，它都能做到。它不仅是个隐性的浏览器，提供了诸如css选择器、支持wen标准、DOM操作、json、HTML5等，同时也提供了处理文件I/O的操作，从而使你可以向操作系统读写文件等。phantomJS的用处可谓非常广泛诸如网络监测、网页截屏、无需浏览器的wen测试、页面访问自动化等

phantomjs安装链接 www.phantomjs.org

在桌面创建demo文件夹，创建demo.py文件，当做我们的脚本文件，创建img文件夹用来存放截取的图片demo.py：

# coding=utf-8
# 导入网页驱动软件
from selenium import webdriver
# 导入WebDriverWait等待模块
from selenium.webdriver.support.wait import WebDriverWait
import time

# 调用环境变量指定的PhantomJS浏览器创建浏览器对象
# 括号内为phantomjs安装位置
driver = webdriver.PhantomJS(executable_path="D:\\Python27\\Scripts\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe")
# 访问的网址（以央视网为例）
driver.get("http://www.cctv.com/")
# 最大化浏览器
driver.maximize_window()

# 模拟点击登录按钮登录弹出登录框（后面有定位元素方法介绍）
driver.find_elements_by_xpath('//span[@class="btn_icon"]')[1].click()

# 等待登录页面加载完成，WebDriverWait （后面有等待方法介绍）
WebDriverWait(driver, 10, 0.5).until(lambda diver:driver.find_element_by_xpath('//a[@class="dl"]'),message="")
time.sleep(2)
# 截取登录框的页面保存到相应位置
driver.save_screenshot('demo\\img\\login1.png')
# 定位登录页面用户名和密码元素并模拟填入用户名和密码
driver.find_element_by_name("username").send_keys('xxxxxxxxxxx')
driver.find_element_by_name("passwd_view").send_keys('xxxxxxxxxxx')
# 模拟点击登录按钮登录
driver.find_element_by_link_text('登录').click()

WebDriverWait(driver, 10, 0.5).until(lambda diver:driver.find_elements_by_xpath('//span[@class="btn_icon"]'),message="")
time.sleep(2)
# 截取登录后的页面保存到相应位置
driver.save_screenshot('demo\\img\\login2.png')

# 模拟点击按钮跳转体育页面
driver.find_element_by_link_text('体育').click()
WebDriverWait(driver, 10, 0.5).until(lambda diver:driver.find_element_by_link_text('CBA'),message="")
time.sleep(2)

# 截取体育页面保存到相应位置
driver.save_screenshot('demo\\img\\sport.png')

# 退出驱动关闭所有窗口
driver.quit()

运行python脚本

打开命令行窗口cmd，切换到demo.py文件的路径下，输入

python demo.py

脚本运行后会自动填写我们设定好的用户名密码并登录，截取设置好的页面并保存到img文件夹

登录框的页面截图：

登录后的页面截图：

体育页面截图：

部分方法介绍：区块定位截图（二次截图）方法：

PIL(Python Image Library)是python的第三方图像处理库，PIL功能非常强大，API非常简单易用，已经是Python平台事实上的图像处理标准库了。 PIL只支持python2.x的版本，python3.x的版本需要安装pillow, pillow是一个对PIL友好的分支，但是支持python3.x的版本

python2.x版本下安装PIL进行二次截图

pip install PIL

python3.x版本下安装pillow 进行区块定位截图

pip install pillow

demo.py:

# 导入Image类
from PIL import Image

# 定位需要二次截图区块的元素
img = driver.find_element_by_xpath('//*[@class="weui-img"]')
# 区块元素左上角在网页中的x坐标
left = img.location['x']
# 区块元素左上角在网页中的y坐标
top = img.location['y']
# 区块元素右下角在网页中的x坐标
right = img.location['x'] + img.size['width']
# 区块元素右下角在网页中的y坐标
bottom = img.location['y'] + img.size['height']
# 打开页面的截图
photo = Image.open('demo\\img\\img_page.png')
# 根据区块元素坐标实现二次截图
photo = photo.crop((left, top, right, bottom))
# 保存二次截图
photo.save('demo\\img\\img.png')

WebDriver8种基本元素定位方法：

1. find_element_by_id() 根据id属性进行定位

例如：find_element_by_id(“one”) 定位id为one的元素

2. find_element_by_name() 根据name属性进行定位

例如：find_element_by_name(“one”) 定位name属性为one的元素

3. find_element_by_class_name() 根据class的名字进行定位

例如：find_element_by_class_name(“one”) 定位class为one的元素

4. find_element_by_xpath() xpath是XML路径语言，通过确定xml文档中的元素位置来完成对元素的定位

例如：find_element_by_xpath("//div[@id=‘one']") 定位id为one的div元素
find_element_by_xpath("//*[@class=‘two']") 定位class为two的元素

5. find_element_by_css_selector() 根据css属性进行定位

例如：find_element_by_css_selector("#one") 定位id为one的div元素
find_element_by_css_selector(".two") 定位class为two的元素

6. find_element_by_tag_name () 根据标签名进行定位

例如：find_element_by_tag_name(“input”) 定位input元素

7. find_element_by_link_text() 根据完整a链接文字进行定位find_element_by_partial_link_text() 根据部分a链接文字进行定位

例如：find_element_by_link_text(“新闻”) 定位文字为‘新闻'的a元素
find_element_by_partial_link_text(“闻”) 定位文字包括‘闻'的a元素

8. By定位( 需要导入By类：from selenium.webdriver.common.by import By )

例如：find_element(By.ID,“one”) 定位id为one的元素
find_element(By.NAME,“one”) 定位name属性为one的元素
find_element(By.CLASS_NAME,“one”) 定位class为one的元素
find_element(By.TAG_NAME,“div”) 定位div元素

当定位元素为多个时，使用elements复数定位，即把定位方法中的element换成elements，此时获取到的为相同属性的一组元素，返回一个list队列，然后可以再去定位单个元素

例如：find_elements_by_class_name(“one”)[1] 定位class为one的所有元素中第二个元素

selenium的3种等待方法：

在做自动化测试时，有时下一步的操作会依赖上一步的结果或者内容，上一步操作成功完成之后才能进行下一步操作，此时，我们就需要使用等待，来判断上一步操作是否完成，进而执行下面的操作，例如登录页面进行登录操作时，需要等待登录页面加载成功，才能定位到用户名和密码对应的元素，然后才能填充用户名和密码，进行登录操作。

1. 强制等待time.sleep(s) 强制等待s秒后再进行下面的操作

缺点：不易把控时间，等待时间固定，如果没到设置时间，已经可以进行下面的操作，则需要多余的等待，如果到达设置时间，还没完成上一步操作，下面的操作还无法正常进行，则会直接报错

2. 隐式等待implicitly_wait(s) 在s秒内，上一步操作完成，进行下一步操作，否则等待s秒后，然后进行下一步操作

缺点：如果到达设置时间，还没完成上一步操作，下面的操作还无法正常进行，则会直接报错

3. 显式等待（推荐使用）WebDriverWait(driver,timeout,poll_frequency=0.5,ignored_exceptions=None)

等待页面加载完成，找到某个条件发生后再继续执行后续代码，如果超过设置时间检测不到则抛出异常

driver：浏览器驱动
timeout：最长超时时间，默认以秒为单位
poll_frequency：检测的间隔步长，默认为0.5s
ignored_exceptions：超时后的抛出的异常信息，默认抛出NoSuchElementExeception异常

与until()结合使用：

WebDriverWait(driver, s).until(method，message="")

在s秒内，每0.5秒检测一次，如果传入的方法返回为true，进行下一步操作，如果到达设置时间未检测到，下面的操作无法正常运行，则会直接报错

总结

以上所述是小编给大家介绍的Python+Selenium+phantomjs实现网页模拟登录和截图功能(windows环境)，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

详解Selenium+PhantomJS+python简单实现爬虫的功能

Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver) selenium2支持通过驱动无界面浏览器(HtmlUnit,PhantomJs) 二.安装 Windows 第一种方法是:下载源码安装,下载地址(https://pypi.python.org/py
python实现微信机器人：登录微信、消息接收、自动回复功能

安装wxpy pip install -U wxpy 登录微信 # 导入模块 from wxpy import * # 初始化机器人,扫码登陆 bot = Bot() 运行以上代码,会生成一个二维码,通过图片扫描二维码即可登录微信. 如果是在服务器上运行代码,无法显示图片的时候, 可以选择通过终端显示二维码图片, 只需要将代码改成: from wxpy import * bot = Bot(console_qr=True) 运行的效果如下: 当然,为了安全,这个二维码做了模糊处理如果你认为每次
Python实现屏幕截图的两种方式

使用windows API 使用PIL中的ImageGrab模块下面对两者的特点和用法进行详细解释. 一.Python调用windows API实现屏幕截图好处是灵活速度快缺点是: 写法繁琐不跨平台 import time import win32gui, win32ui, win32con, win32api def window_capture(filename): hwnd = 0 # 窗口的编号,0号表示当前活跃窗口 # 根据窗口句柄获取窗口的设备上下文DC(Divice C
Python实现屏幕截图的代码及函数详解

废话不多说,先给大家看下python实现屏幕截图的代码,具体代码如下所述: from selenium import webdriver import time def capture(url, save_fn="capture.png"): browser = webdriver.Firefox() # Get local session of firefox browser.set_window_size(1200, 900) browser.get(url) # Load pag
python爬虫selenium和phantomJs使用方法解析

1.selenum:三方库.可以实现让浏览器完成自动化的操作. 2.环境搭建 2.1 安装: pip install selenium 2.2 获取浏览器的驱动程序下载地址: http://chromedriver.storage.googleapis.com/index.html http://npm.taobao.org/mirrors/chromedriver/ 浏览器版本和驱动版本的对应关系表: chromedriver版本支持的Chrome版本 v2.46 v71-73 v2.45
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

1.引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第二部分,第一部分实验了用xslt方式一次性提取静态网页内容并转换成xml格式.留下了一个问题:javascript管理的动态内容怎样提取?那么本文就回答这个问题. 2.提取动态内容的技术部件在上一篇python使用xslt提取网页数据中,要提取的内容是直接从网页的source code里拿到的.但是一些Aja
Python+Selenium+phantomjs实现网页模拟登录和截图功能(windows环境)

本文全部操作均在windows环境下安装 Python Python是一种跨平台的计算机程序设计语言,它可以运行在Windows.Mac和各种Linux/Unix系统上.是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的.大型项目的开发去Python的官网 www.python.org 下载安装安装时勾选pip (python包管理工具),同时安装pip python安装好之后,打开命令行工具cmd,输入
python+selenium+PhantomJS抓取网页动态加载内容

环境搭建准备工具:pyton3.5,selenium,phantomjs 我的电脑里面已经装好了python3.5 安装Selenium pip3 install selenium 安装Phantomjs 按照系统环境下载phantomjs,下载完成之后,将phantomjs.exe解压到python的script文件夹下使用selenium+phantomjs实现简单爬虫 from selenium import webdriver driver = webdriver.PhantomJS
selenium+超级鹰实现模拟登录12306

最近迷上了用selenium去登陆各大网站,别说selenium真挺好用,可以轻松搞定ajax动态加载的网页,不用很费劲的去抓包查找.咳咳-跑题了,回归正题. 这次用selenium去登录12306网站,听说比较困难.我就去试了试,发现它的验证码实在是那啥-就是这样的.听头疼的. 我来说说主要的代码编写吧. 过程: 用我们的开发者工具定位到输入账号和密码的窗口,找到并send_keys driver.find_element_by_id('username').send_keys('用户名')
Python+selenium点击网页上指定坐标的实例

例如有些页面元素很难获取,但是位置很固定,那么可以直接用坐标来进行操作例如要对页面上的(x:200, y:100)进行操作,可以用如下代码: from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains dr = webdriver.Chrome() dr.get('http://www.baidu.com') ActionChains(dr).move_by_of
python爬虫框架scrapy实现模拟登录操作示例

本文实例讲述了python爬虫框架scrapy实现模拟登录操作.分享给大家供大家参考,具体如下: 一.背景: 初来乍到的pythoner,刚开始的时候觉得所有的网站无非就是分析HTML.json数据,但是忽略了很多的一个问题,有很多的网站为了反爬虫,除了需要高可用代理IP地址池外,还需要登录.例如知乎,很多信息都是需要登录以后才能爬取,但是频繁登录后就会出现验证码(有些网站直接就让你输入验证码),这就坑了,毕竟运维同学很辛苦,该反的还得反,那我们怎么办呢?这不说验证码的事儿,你可以自己手动输入验
python+selenium 简易地疫情信息自动打卡签到功能的实现代码

由于学校要求我们每天都要在官网打卡签到疫情信息,多多少少得花个1分钟操作,程序员的尊严告诉我们坚决不能手动打卡.正巧最近学了selenium,于是画了个5分钟写了个自动打卡签到地小程序. 测试环境:python3.7 , selenium,chrome浏览器 seleium和chromedriver的配置在这里就不讲了,这里放个连接首先找到学校信息门户的登录页: http://my.hhu.edu.cn/login.portal #导入selenium中的webdriver from sele
利用python Selenium实现自动登陆京东签到领金币功能

如何自动登陆京东? 我们先来看一下京东的登陆页面,如下图所示: [插入图片,登陆页面] 登陆框就是右面这一个框框了,但是目前我们遇到一个困呐,默认的登陆方式是扫码登陆,如果我们想要以用户民个.密码的形式登陆,就要切换一下. 我们看一下这两种登陆方式是如何切换的,通过浏览器的元素检查,我们看一下两个标签. [插入图片,两种登陆方式] 扫码登陆和用户登陆分别在一个div标签里面,我们可以通过css选择器选定用户登陆,使其下面的a标签的class为checked,接下来的一切就比较简单了. 我们要获取
Java模拟QQ桌面截图功能实现方法

本文实例讲述了Java模拟QQ桌面截图功能实现方法.分享给大家供大家参考.具体如下: QQ的桌面截图功能非常方便,去年曾用Java模拟过一个,现整理出来. 本方法首先需要抓到屏幕的整个图象,将图象显示在一个JFrame中,再将JFrame全屏显示,这样就模拟出了一个桌面,Java也就可以获得鼠标的作用区域从而实现桌面中的小范围截屏. import javax.swing.*; import java.awt.*; import java.awt.event.ActionEvent; import
python爬虫豆瓣网的模拟登录实现

思路一.想要实现登录豆瓣关键点分析真实post地址 ----寻找它的formdata,如下图,按浏览器的F12可以找到. 实战操作实现:模拟登录豆瓣,验证码处理,登录到个人主页就算是success 数据:没有抓取数据,此实战主要是模拟登录和处理验证码的学习.要是有需求要抓取数据,编写相关的抓取规则即可抓取内容. 登录成功展示如图: spiders文件夹中DouBan.py主要代码如下: # -*- coding: utf-8 -*- import scrapy,urllib,re from
Python + selenium + crontab实现每日定时自动打卡功能

前言近几日迫于被辅导员三番五次的提醒每日一报打卡,就想着去写个脚本挂在服务器上定时执行.经过我不懈的努力,最终选择了seleniumseleniumselenium,因为简单( 安装selenium库 $ sudo pip install selenium 安装chromdriver 因为我有代理所以直接在官网下载的,那这里你可以选择用淘宝镜像源. 这里为了方便,我直接放命令了.Chromedriver版本我这里选择的是80.0.3987.16(注意要和一会儿下载的Chrome版本一致). 下

Python+Selenium+phantomjs实现网页模拟登录和截图功能(windows环境)

相关推荐

随机推荐