Python使用Selenium模拟浏览器自动操作功能

概述

在进行网站爬取数据的时候,会发现很多网站都进行了反爬虫的处理,如JS加密,Ajax加密,反Debug等方法,通过请求获取数据和页面展示的内容完全不同,这时候就用到Selenium技术,来模拟浏览器的操作,然后获取数据。本文以一个简单的小例子,简述Python搭配Tkinter和Selenium进行浏览器的模拟操作,仅供学习分享使用,如有不足之处,还请指正。

什么是Selenium?

Selenium是一个用于Web应用程序测试的工具,Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。Selenium支持多种操作系统,如Windows、Linux、IOS等,如果需要支持Android,则需要特殊的selenium,本文主要以IE11浏览器为例。

安装Selenium

通过pip install selenium 进行安装即可,如果速度慢,则可以使用国内的镜像进行安装。

涉及知识点

程序虽小,除了需要掌握的Html ,JavaScript,CSS等基础知识外,本例涉及的Python相关知识点还是蛮多的,具体如下:

  • Selenium相关:

Selenium进行元素定位,主要有ID,Name,ClassName,Css Selector,Partial LinkText,LinkText,XPath,TagName等8种方式。
Selenium获取单一元素(如:find_element_by_xpath)和获取元素数组(如:find_elements_by_xpath)两种方式。
Selenium元素定位后,可以给元素进行赋值和取值,或者进行相应的事件操作(如:click)。

  • 线程(Thread)相关:

为了防止前台页面卡主,本文用到了线程进行后台操作,如果要定义一个新的线程,只需要定义一个类并继承threading.Thread,然后重写run方法即可。
在使用线程的过程中,为了保证线程的同步,本例用到了线程锁,如:threading.Lock()。

  • 队列(queue)相关:

本例将Selenium执行的过程信息,保存到对列中,并通过线程输出到页面显示。queue默认先进先出方式。
对列通过put进行压栈,通过get进行出栈。通过qsize()用于获取当前对列元素个数。

  • 日志(logging.Logger)相关:

为了保存Selenium执行过程中的日志,本例用到了日志模块,为Pyhton自带的模块,不需要额外安装。
Python的日志共六种级别,分别是:NOTSET,DEBUG,INFO,WARN,ERROR,FATAL,CRITICAL。

示例效果图

本例主要针对某一配置好的商品ID进行轮询,监控是否有货,有货则加入购物车,无货则继续轮询,如下图所示:

核心代码

本例最核心的代码,就是利用Selenium进行网站的模拟操作,如下所示:

class Smoking:
 """定义Smoking类"""

 # 浏览器驱动
 __driver: webdriver = None
 # 配置帮助类
 __cfg_info: dict = {}
 # 日志帮助类
 __log_helper: LogHelper = None
 # 主程序目录
 __work_path: str = ''
 # 是否正在运行
 __running: bool = False
 # 无货
 __no_stock = 'Currently Out of Stock'
 # 线程等待秒数
 __wait_sec = 2

 def __init__(self, work_path, cfg_info, log_helper: LogHelper):
  """初始化"""
  self.__cfg_info = cfg_info
  self.__log_helper = log_helper
  self.__work_path = work_path
  self.__wait_sec = int(cfg_info['wait_sec'])
  # 如果小于2,则等于2
  self.__wait_sec = (2 if self.__wait_sec < 2 else self.__wait_sec)

 def checkIsExistsById(self, id):
  """通过ID判断是否存在"""
  try:
   i = 0
   while self.__running and i < 3:
    if len(self.__driver.find_elements_by_id(id)) > 0:
     break
    else:
     time.sleep(self.__wait_sec)
     i = i + 1
   return len(self.__driver.find_elements_by_id(id)) > 0
  except BaseException as e:
   return False

 def checkIsExistsByName(self, name):
  """通过名称判断是否存在"""
  try:
   i = 0
   while self.__running and i < 3:
    if len(self.__driver.find_elements_by_name(name)) > 0:
     break
    else:
     time.sleep(self.__wait_sec)
     i = i + 1
   return len(self.__driver.find_elements_by_name(name)) > 0
  except BaseException as e:
   return False

 def checkIsExistsByPath(self, path):
  """通过xpath判断是否存在"""
  try:
   i = 0
   while self.__running and i < 3:
    if len(self.__driver.find_elements_by_xpath(path)) > 0:
     break
    else:
     time.sleep(self.__wait_sec)
     i = i + 1
   return len(self.__driver.find_elements_by_xpath(path)) > 0
  except BaseException as e:
   return False

 def checkIsExistsByClass(self, cls):
  """通过class名称判断是否存在"""
  try:
   i = 0
   while self.__running and i < 3:
    if len(self.__driver.find_elements_by_class_name(cls)) > 0:
     break
    else:
     time.sleep(self.__wait_sec)
     i = i + 1
   return len(self.__driver.find_elements_by_class_name(cls)) > 0
  except BaseException as e:
   return False

 def checkIsExistsByLinkText(self, link_text):
  """判断LinkText是否存在"""
  try:
   i = 0
   while self.__running and i < 3:
    if len(self.__driver.find_elements_by_link_text(link_text)) > 0:
     break
    else:
     time.sleep(self.__wait_sec)
     i = i + 1
   return len(self.__driver.find_elements_by_link_text(link_text)) > 0
  except BaseException as e:
   return False

 def checkIsExistsByPartialLinkText(self, link_text):
  """判断包含LinkText是否存在"""
  try:
   i = 0
   while self.__running and i < 3:
    if len(self.__driver.find_elements_by_partial_link_text(link_text)) > 0:
     break
    else:
     time.sleep(self.__wait_sec)
     i = i + 1
   return len(self.__driver.find_elements_by_partial_link_text(link_text)) > 0
  except BaseException as e:
   return False

 # def waiting(self, *locator):
 #  """等待完成"""
 #  # self.__driver.switch_to.window(self.__driver.window_handles[1])
 #  Wait(self.__driver, 60).until(EC.visibility_of_element_located(locator))

 def login(self, username, password):
  """登录"""
  # 5. 点击链接跳转到登录页面
  self.__driver.find_element_by_link_text('账户登录').click()
  # 6. 输入账号密码
  # 判断是否加载完成
  # self.waiting((By.ID, "email"))
  if self.checkIsExistsById('email'):
   self.__driver.find_element_by_id('email').send_keys(username)
   self.__driver.find_element_by_id('password').send_keys(password)
   # 7. 点击登录按钮
   self.__driver.find_element_by_id('sign-in').click()

 def working(self, item_id):
  """工作状态"""
  while self.__running:
   try:
    # 正常获取信息
    if self.checkIsExistsById('string'):
     self.__driver.find_element_by_id('string').clear()
     self.__driver.find_element_by_id('string').send_keys(item_id)
     self.__driver.find_element_by_id('string').send_keys(Keys.ENTER)
    # 判断是否查询到商品
    xpath = "//div[@class='specialty-header search']/div[@class='specialty-description']/div[" \
      "@class='gt-450']/span[2] "
    if self.checkIsExistsByPath(xpath):
     count = int(self.__driver.find_element_by_xpath(xpath).text)
     if count < 1:
      time.sleep(self.__wait_sec)
      self.__log_helper.put('没有查询到item id =' + item_id + '对应的信息')
      continue
    else:
     time.sleep(self.__wait_sec)
     self.__log_helper.put('没有查询到item id2 =' + item_id + '对应的信息')
     continue
    # 判断当前库存是否有货

    xpath1 = "//div[@class='product-list']/div[@class='product']/div[@class='price-and-detail']/div[" \
       "@class='price']/span[@class='noStock'] "
    if self.checkIsExistsByPath(xpath1):
     txt = self.__driver.find_element_by_xpath(xpath1).text
     if txt == self.__no_stock:
      # 当前无货
      time.sleep(self.__wait_sec)
      self.__log_helper.put('查询一次' + item_id + ',无货')
      continue

    # 链接path1
    xpath2 = "//div[@class='product-list']/div[@class='product']/div[@class='imgDiv']/a"
    # 判断是否加载完毕
    # self.waiting((By.CLASS_NAME, "imgDiv"))
    if self.checkIsExistsByPath(xpath2):
     self.__driver.find_element_by_xpath(xpath2).click()
     time.sleep(self.__wait_sec)
     # 加入购物车
     if self.checkIsExistsByClass('add-to-cart'):
      self.__driver.find_element_by_class_name('add-to-cart').click()
      self.__log_helper.put('加入购物车成功,商品item-id:' + item_id)
      break
     else:
      self.__log_helper.put('未找到加入购物车按钮')
    else:
     self.__log_helper.put('没有查询到,可能是商品编码不对,或者已下架')
   except BaseException as e:
    self.__log_helper.put(e)

 def startRun(self):
  """运行起来"""
  try:
   self.__running = True
   url: str = self.__cfg_info['url']
   username = self.__cfg_info['username']
   password = self.__cfg_info['password']
   item_id = self.__cfg_info['item_id']
   if url is None or len(url) == 0 or username is None or len(username) == 0 or password is None or len(
     password) == 0 or item_id is None or len(item_id) == 0:
    self.__log_helper.put('配置信息不全,请检查config.cfg文件是否为空,然后再重启')
    return
   if self.__driver is None:
    options = webdriver.IeOptions()
    options.add_argument('encoding=UTF-8')
    options.add_argument('Accept= text / css, * / *')
    options.add_argument('Accept - Language= zh - Hans - CN, zh - Hans;q = 0.5')
    options.add_argument('Accept - Encoding= gzip, deflate')
    options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko')
    # 2. 定义浏览器驱动对象
    self.__driver = webdriver.Ie(executable_path=self.__work_path + r'\IEDriverServer.exe', options=options)
   self.run(url, username, password, item_id)
  except BaseException as e:
   self.__log_helper.put('运行过程中出错,请重新打开再试')

 def run(self, url, username, password, item_id):
  """运行起来"""
  # 3. 访问网站
  self.__driver.get(url)
  # 4. 最大化窗口
  self.__driver.maximize_window()
  if self.checkIsExistsByLinkText('账户登录'):
   # 判断是否登录:未登录
   self.login(username, password)
  if self.checkIsExistsByPartialLinkText('欢迎回来'):
   # 判断是否登录:已登录
   self.__log_helper.put('登录成功,下一步开始工作了')
   self.working(item_id)
  else:
   self.__log_helper.put('登录失败,请设置账号密码')

 def stop(self):
  """停止"""
  try:
   self.__running = False
   # 如果驱动不为空,则关闭
   self.close_browser_nicely(self.__driver)
   if self.__driver is not None:
    self.__driver.quit()
    # 关闭后切要为None,否则启动报错
    self.__driver = None
  except BaseException as e:
   print('Stop Failure')
  finally:
   self.__driver = None

 def close_browser_nicely(self, browser):
  try:
   browser.execute_script("window.onunload=null; window.onbeforeunload=null")
  except Exception as err:
   print("Fail to execute_script:'window.onunload=null; window.onbeforeunload=null'")

  socket.setdefaulttimeout(10)
  try:
   browser.quit()
   print("Close browser and firefox by calling quit()")
  except Exception as err:
   print("Fail to quit from browser, error-type:%s, reason:%s" % (type(err), str(err)))
  socket.setdefaulttimeout(30)

其他辅助类

日志类(LogHelper),代码如下:

class LogHelper:
 """日志帮助类"""
 __queue: queue.Queue = None # 队列
 __logging: logging.Logger = None # 日志
 __running: bool = False # 是否记录日志

 def __init__(self, log_path):
  """初始化类"""
  self.__queue = queue.Queue(1000)
  self.init_log(log_path)

 def put(self, value):
  """添加数据"""
  # 记录日志
  self.__logging.info(value)
  # 添加到队列
  if self.__queue.qsize() < self.__queue.maxsize:
   self.__queue.put(value)

 def get(self):
  """获取数据"""
  if self.__queue.qsize() > 0:
   try:
    return self.__queue.get(block=False)
   except BaseException as e:
    return None
  else:
   return None

 def init_log(self, log_path):
  """初始化日志"""
  self.__logging = logging.getLogger()
  self.__logging.setLevel(logging.INFO)
  # 日志
  rq = time.strftime('%Y%m%d%H%M', time.localtime(time.time()))
  log_name = log_path + rq + '.log'
  logfile = log_name
  # if not os.path.exists(logfile):
  #  # 创建空文件
  #  open(logfile, mode='r')
  fh = logging.FileHandler(logfile, mode='a', encoding='UTF-8')
  fh.setLevel(logging.DEBUG) # 输出到file的log等级的开关
  # 第三步,定义handler的输出格式
  formatter = logging.Formatter("%(asctime)s - %(filename)s[line:%(lineno)d] - %(levelname)s: %(message)s")
  fh.setFormatter(formatter)
  # 第四步,将logger添加到handler里面
  self.__logging.addHandler(fh)

 def get_running(self):
  # 获取当前记录日志的状态
  return self.__running

 def set_running(self, v: bool):
  # 设置当前记录日志的状态

  self.__running = v

配置类(ConfigHelper)

class ConfigHelper:
 """初始化数据类"""

 __config_dir = None
 __dic_cfg = {}

 def __init__(self, config_dir):
  """初始化"""
  self.__config_dir = config_dir

 def ReadConfigInfo(self):
  """得到配置项"""
  parser = ConfigParser()
  parser.read(self.__config_dir + r"\config.cfg")
  section = parser.sections()[0]
  items = parser.items(section)
  self.__dic_cfg.clear()
  for item in items:
   self.__dic_cfg.__setitem__(item[0], item[1])

 def getConfigInfo(self):
  """获取配置信息"""
  if len(self.__dic_cfg) == 0:
   self.ReadConfigInfo()
  return self.__dic_cfg

线程类(MyThread)

class MyThread(threading.Thread):
 """后台监控线程"""

 def __init__(self, tid, name, smoking: Smoking, log_helper: LogHelper):
  """线程初始化"""
  threading.Thread.__init__(self)
  self.threadID = tid
  self.name = name
  self.smoking = smoking
  self.log_helper = log_helper

 def run(self):
  print("开启线程: " + self.name)
  self.log_helper.put("开启线程: " + self.name)
  # 获取锁,用于线程同步
  # lock = threading.Lock()
  # lock.acquire()
  self.smoking.startRun()
  # 释放锁,开启下一个线程
  # lock.release()
  print("结束线程: " + self.name)
  self.log_helper.put("结束线程: " + self.name)

备注

侠客行 [唐:李白]赵客缦胡缨,吴钩霜雪明。银鞍照白马,飒沓如流星。
十步杀一人,千里不留行。事了拂衣去,深藏身与名。
闲过信陵饮,脱剑膝前横。将炙啖朱亥,持觞劝侯嬴。
三杯吐然诺,五岳倒为轻。眼花耳热后,意气素霓生。
救赵挥金槌,邯郸先震惊。千秋二壮士,烜赫大梁城。
纵死侠骨香,不惭世上英。谁能书阁下,白首太玄经。

到此这篇关于Python使用Selenium模拟浏览器自动操作的文章就介绍到这了,更多相关Python模拟浏览器自动操作内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • selenium python浏览器多窗口处理代码示例

    本文主要研究的是selenium python浏览器多窗口处理的相关内容,分享了操作实例代码,具体如下: #!/usr/bin/python # -*- coding: utf-8 -*- __author__ = 'zuoanvip' #在测试过程中有时候会遇到出现多个浏览器窗口的情况,这时候我们可以通过窗口的句柄来操作不同窗口的元素 from selenium import webdriver import os import time driver =webdriver.Firefox()

  • Python+selenium 获取浏览器窗口坐标、句柄的方法

    1.0 获取浏览器窗口坐标 python目录可找到Webdriver.py 文件定义了get_window_rect()函数,可获取窗口的坐标和大小(长宽),但出现"Command not found"的情况.set_window_rect()函数也一样. def get_window_rect(self): """ Gets the x, y coordinates of the window as well as height and width of

  • 浅谈python爬虫使用Selenium模拟浏览器行为

    前几天有位微信读者问我一个爬虫的问题,就是在爬去百度贴吧首页的热门动态下面的图片的时候,爬取的图片总是爬取不完整,比首页看到的少.原因他也大概分析了下,就是后面的图片是动态加载的.他的问题就是这部分动态加载的图片该怎么爬取到. 分析 他的代码比较简单,主要有以下的步骤:使用BeautifulSoup库,打开百度贴吧的首页地址,再解析得到id为new_list标签底下的img标签,最后将img标签的图片保存下来. headers = { 'User-Agent':'Mozilla/5.0 (Win

  • python selenium 对浏览器标签页进行关闭和切换的方法

    1.关闭浏览器全部标签页 driver.quit() 2.关闭当前标签页(从标签页A打开新的标签页B,关闭标签页A) driver.close() 3.关闭当前标签页(从标签页A打开新的标签页B,关闭标签页B) 可利用浏览器自带的快捷方式对打开的标签进行关闭 Firefox自身的快捷键分别为: Ctrl+t 新建tab Ctrl+w 关闭tab Ctrl+Tab /Ctrl+Page_Up 定位当前标签页的下一个标签页 Ctrl+Shift+Tab/Ctrl+Page_Down 定位当前标签页的

  • selenium+python自动化测试之使用webdriver操作浏览器的方法

    WebDriver简介 selenium从2.0开始集成了webdriver的API,提供了更简单,更简洁的编程接口.selenium webdriver的目标是提供一个设计良好的面向对象的API,提供了更好的支持进行web-app测试.从这篇博客开始,将学习使用如何使用python调用webdriver框架对浏览器进行一系列的操作 打开浏览器 在selenium+python自动化测试(一)–环境搭建中,运行了一个测试脚本,脚本内容如下: from selenium import webdri

  • 详解Python多线程Selenium跨浏览器测试

    前言 在web测试中,不可避免的一个测试就是浏览器兼容性测试,在没有自动化测试前,我们总是苦逼的在一台或多台机器上安装N种浏览器,然后手工在不同的浏览器上验证主业务流程和关键功能模块功能,以检测不同浏览器或不同版本浏览器上,我们的web应用是否可以正常工作. 下面我们看看怎么利用python selenium进行自动化的跨浏览器测试. 什么是跨浏览器测试 跨浏览器测试是功能测试的一个分支,用以验证web应用能在不同的浏览器上正常工作. 为什么需要跨浏览器测试 通常情况下,我们都期望web类应用

  • 通过python+selenium3实现浏览器刷简书文章阅读量

    准备工作 下载python,本文以python3.6为例.python3.6下载地址:python3下载地址,选择合适的版本安装.安装成功后,打开命令提示符,在其中输入python,显示如下信息,则说明安装成功. C:\Users\Ubuntu>python Python 3.6.0 (v3.6.0:41df79263a11, Dec 23 2016, 08:06:12) [MSC v.1900 64 bit (AMD64)] on win32 Type "help", &quo

  • Python使用Selenium模拟浏览器自动操作功能

    概述 在进行网站爬取数据的时候,会发现很多网站都进行了反爬虫的处理,如JS加密,Ajax加密,反Debug等方法,通过请求获取数据和页面展示的内容完全不同,这时候就用到Selenium技术,来模拟浏览器的操作,然后获取数据.本文以一个简单的小例子,简述Python搭配Tkinter和Selenium进行浏览器的模拟操作,仅供学习分享使用,如有不足之处,还请指正. 什么是Selenium? Selenium是一个用于Web应用程序测试的工具,Selenium测试直接运行在浏览器中,就像真正的用户在

  • python使用selenium模拟浏览器进入好友QQ空间留言功能

    首先下载selenium模块,pip install selenium,下载一个浏览器驱动程序(我这里使用谷歌). #导入 #注意python各版本find_element()方法的变化(python3.10) from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By # 创建一个模拟浏览器对象,然

  • Python利用Selenium实现网站自动签到功能

    目录 什么是Selenium 前情提要 准备工作 代码及讲解 点击登录 点击跳过弹窗 小结 什么是Selenium 先带领大家学习下Selenium的基本概念吧. Selenium主要用于web应用程序的自动化测试,但并不局限于此,它还支持所有基于web的管理任务自动化. 它的特点如下: 开源,免费 多浏览器支持:Firefox.Chrome.IE等 多平台支持:Linux.Windows.Mac 多语言支持:Java.Python.Ruby.C#.JavaScript.C++ 对web页面有良

  • Selenium控制浏览器常见操作示例

    本文实例讲述了Selenium控制浏览器常见操作.分享给大家供大家参考,具体如下: Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等.这个工具的主要功能包括:测试与浏览器的兼容性--测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上.测试系统功能--创建回归测试检验软件功能和

  • C# 利用Selenium实现浏览器自动化操作的示例代码

    概述 Selenium是一款免费的分布式的自动化测试工具,支持多种开发语言,无论是C. java.ruby.python.或是C# ,你都可以通过selenium完成自动化测试.本文以一个简单的小例子,简述C# 利用Selenium进行浏览器的模拟操作,仅供学习分享使用,如有不足之处,还请指正. 涉及知识点 要实现本例的功能,除了要掌握Html ,JavaScript,CSS等基础知识,还涉及以下知识点: log4net:主要用于日志的记录和存储,本例采用log4net进行日志记录,便于过程跟踪

  • Python中Selenium模拟JQuery滑动解锁实例

    本文介绍了Python中Selenium模拟JQuery滑动解锁实例,分享给大家,也给自己留个笔记 滑动解锁一直做UI自动化的难点之一,我补一篇滑动解锁的例子,希望能给初做Web UI自动化测试的同学一些思路. 首先先看个例子. 当我手动点击滑块时,改变的只是样式: 1.slide-to-unlock-handle 表示滑块,滑块的左边距在变大(因为它在向右移动嘛!) 2.Slide-tounlock-progress 表示滑过之后的背景黄色,黄色的宽度在增加,因为滑动经过的地方都变黄了. 除些

  • Python基于列表模拟堆栈和队列功能示例

    本文实例讲述了Python基于列表模拟堆栈和队列功能.分享给大家供大家参考,具体如下: 之前的文章http://www.jb51.net/article/59897.htm介绍了堆栈与队列的Python实现方法,这里使用列表来模拟一下堆栈与队列的简单操作. 一.队列特点:先进先出.后进后出 用列表insert.pop模拟进队出队: >>> l = [] >>> l.insert(0,'p1') >>> l.insert(0,'p2') >>

  • 使用python实现微信小程序自动签到功能

    功能描述目标 完成多账号微信小程序每天自动签到 输出 签到成功则向微信群发送签到成功的信息 否则提示用户签到失败,需手动签到 包管理 requests itchat time threading 程序的结构设计步骤1 获取要发送的json数据:地址 步骤2 向服务器发送请求 步骤3 根据服服务器响应判断签到是否完成 步骤4 微信交互 代码实现使用findler抓包工具查看请求类型 https://reserve.25team.com/wxappv1/yi/index?version=13 可以看

  • Python实现疫情通定时自动填写功能(附代码)

    自疫情始,学校就要求学生每天在学校内系统填写个人每日疫情相关情况,称为疫情通. 但是,由于个人原因,出现了下图情况. 记性太差,人又懒,于是决定用Python实现自动化定时任务. 1.核心模块 打开IEChrome. 打开网页按下F12拿到请求头和请求体. (假装此处有图片) Pycharm启动! 根据拿到的请求头和请求体,完成核心代码编写. url = "https://xxcapp.xidian.edu.cn/ncov/wap/default/save" headers = {'C

  • python实现图书馆抢座(自动预约)功能的示例代码

    脚本功能 系统开放座位时快速预约指定位置 可以设置预约的时间段 运行以后会一直帮你抢,需要手动停止 即使遇到更强的脚本自动帮抢下一个座位 实现 首先解决登录问题,通过F12找出登录请求包,分析对比一下包可以发现一般只有用户名和密码这个参数是变化的,然后用requests.session()的实例化去请求登录接口,登录成功. 然后预约座位抓一下包,分析包找到变化的关键的参数,一般情况下关键参数只有座位id.开始时间.结束时间,其他的参数一股脑照搬就行了,接下来用刚刚登录成功的那个requests.

随机推荐