Python自动化之定位方法大杀器xpath
一、xpath:基本属性定位
上一篇文章讲了通过元素的id、name、class这些属性定位的用户,使用xpath方法结合元素属性也可以很准确的定位元素,如下图
于是可以用以下xpath方法定位
二、xpath:其他属性定位
在实际工作过程中,往往会遇到一个元素id、name、class属性都没有,这时候也可以通过其它属性定位到
三、xpath:标签定位
在实际工作中,还会遇到一种情况就是相同属性具有同一个名字,这时就需要通过标签筛选,定位更准一点
如果不想制定标签名称,可以用*号表示任意标签
如果想制定具体某个标签,就可以直接写标签名称
四、xpath:相对路径/绝对路径定位
1.如果一个元素,它的属性不是很明显,无法直接定位到,这时候我们可以先找它上一层元素(父元素)
2.找到父元素后,再找下个层级就能定位到了
3.如上图所示,要定位的是input这个标签,它的老爸的id=s_kw_wrap.
4.要是它老爸的属性也不是很明显,就找它爷爷id=form
5.于是就可以通过层级关系定位到
五、xpath:索引
1.如果一个元素它的兄弟元素跟它的标签一样,这时候无法通过层级定位到。因为都是一个父亲生的,多胞胎兄弟。
2.虽然双胞胎兄弟很难识别,但是出生是有先后的,于是可以通过它在家里的排行老几定位到。
3.如下图三胞胎兄弟
4.用xpath定位老大、老二和老三(这里索引是从1开始算起的,跟Python的索引不一样)
六、xpath:逻辑运算
1.xpath还有一个比较强的功能,是可以多个属性逻辑运算的,可以支持与(and)、或(or)、非(not)
2.一般用的比较多的是and运算,同时满足两个属性
七、xpath:模糊匹配
1.xpath还有一个非常强大的功能,模糊匹配
2.掌握了模糊匹配功能,基本上没有定位不到的
3.比如我要定位百度页面的超链接“hao123”,在上一篇中讲过可以通过by_link,也可以通过by_partial_link,模糊匹配定位到。当然xpath也可以有同样的功能,并且更为强大。
可以把xpath看成是元素定位界的屠龙刀。
到此这篇关于Python自动化之定位方法大杀器xpath的文章就介绍到这了,更多相关Python xpath内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
相关推荐
-
python-xpath获取html文档的部分内容
有些时候我在们需要的用正则提取出html中某一个部分的文字内容,如图: 获取dd部分的html文档,我们要通过它的一个属性去确定他的位置才可以拿到他这个部分我们可以看到他的这个属性class='row clearfix ',然后用xpath去获取到这部分: name = tree.xpath("//dd[@class='row clearfix ']") from lxml import html import requests url = 'http://navi.cnki.net/
-
python Xpath语法的使用
一.XMl简介 (一)什么是 XML XML 指可扩展标记语言(EXtensible) XML 是一种标记语言,很类似 HTML. XML 的设计宗旨是传输数据,而非显示数据. XML 的标签需要我们自行定义. XML 被设计为具有自我描述性. XML 是 W3C 的推荐标准. W3School 官方文档:http://www.w3school.com.cn/xml/index.asp (二)XML 和 HTML 的区别 他们两者都是用于操作数据或者结构数据,在结构上大致相同的,但他们在本质上却
-
python中requests库+xpath+lxml简单使用
python的requests 它是python的一个第三方库,处理URL比urllib这个库要方便的多,并且功能也很丰富. [可以先看4,5表格形式的说明,再看前面的] 安装 直接用pip安装,anconda是自带这个库的. pip install requests 简单使用 requests的文档 1.简单访问一个url: import requests url='http://www.baidu.com' res = requests.get(url) res.text res.statu
-
Python使用xpath实现图片爬取
高性能异步爬虫 目的:在爬虫中使用异步实现高性能的数据爬取操作 异步爬虫的方式: - 多线程.多进程(不建议): 好处:可以为相关阻塞的操作单独开启多线程或进程,阻塞操作就可以异步执行; 弊端:无法无限制的开启多线程或多进程. - 线程池.进程池(适当的使用): 好处:我们可以降低系统对进程或线程创建和销毁的一个频率,从而很好的降低系统的开销: 弊端:池中线程或进程的数据是有上限的. 代码如下 # _*_ coding:utf-8 _*_ """ @FileName :6.4
-
Python自动化xpath实现自动抢票抢货
小伙伴们,这次推文讲的是'xpath',掌握起来不难的哦.而且,熟悉了这套路,别说pubmed,任何你能在浏览器实现的操作,都基本能通过selenium自动化进行. 总代码: for i in range(51,56): driver.implicitly_wait(10) ActionChains(driver).move_to_element(driver.find_element_by_xpath('//*[@id="save-results-panel-trigger"]'))
-
Python3 xml.etree.ElementTree支持的XPath语法详解
xml.etree.ElementTree可以通过支持的有限的XPath表达式来定位元素. 语法 ElementTree支持的语法如下: 语法 说明 tag 查找所有具有指定名称tag的子元素.例如:country表示所有名为country的元素,country/rank表示所有名为country的元素下名为rank的元素. * 查找所有元素.如:*/rank表示所有名为rank的孙子元素. . 选择当前元素.在xpath表达式开头使用,表示相对路径. // 选择当前元素下所有级别的所有子元素.
-
Python xpath表达式如何实现数据处理
xpath表达式 1. xpath语法 <bookstore> <book> <title lang="eng">Harry Potter</title> <price>999</price> </book> <book> <title lang="eng">Learning XML</title> <price>888</pri
-
python利用xpath爬取网上数据并存储到django模型中
帮朋友制作一个网站,需要一些产品数据信息,因为是代理其他公司产品,直接爬取代理公司产品数据 1.设计数据库 from django.db import models from uuslug import slugify import uuid import os def products_directory_path(instance, filename): ext = filename.split('.')[-1] filename = '{}.{}'.format(uuid.uuid4().
-
python使用XPath解析数据爬取起点小说网数据
1. xpath 的介绍 xpath是一门在XML文档中查找信息的语言 优点: 可以在xml中找信息 支持HTML的查找 可以通过元素和属性进行导航 但是Xpath需要依赖xml的库,所以我们需要去安装lxml的库. 安装lxml库 我们先要安装lxml的库,直接在pycharm里安装即可: XML的树形结构: 元素-元素-属性-文本 使用XPath选取节点: nodename: 选取此节点的所有节点 /从根节点选择 // 从匹配选择的当前节点选择文档中的节点,而不考虑他们的位置 . 选择当前节
-
python selenium xpath定位操作
xpath是一种在xm文档中定位的语言,详细简介,请自行参照百度百科,本文主要总结一下xpath的使用方法,个人看法,如有不足和错误,敬请指出. 注意:xpath的定位 同一级别的多个标签 索引从1开始 而不是0 1. 绝对定位: 此方法最为简单,具体格式为 xxx.find_element_by_xpath("绝对路径") 具体例子: xxx.find_element_by_xpath("/html/body/div[x]/form/input") x 代表第x个
-
python3 xpath和requests应用详解
根据一个爬取豆瓣电影排名的小应用,来简单使用etree和request库. etree使用xpath语法. import requests import ssl from lxml import etree ssl._create_default_https_context = ssl._create_unverified_context session = requests.Session() for id in range(0, 251, 25): URL = 'https://movie.
-
利用Python中的Xpath实现一个在线汇率转换器
前言 在之前的语法里面,我们记得有一个初识Python之汇率转换篇,在那个程序里面我们发现可以运用一些基础的语法写一个汇率计算,但是学到后面的小伙伴就会发现这个小程序有一定的弊端. 首先,它不可以实时的获取汇率的值,每次都需要我们自己去定义一个汇率转换值,这个就会显得不是很智能,有点机械,所以我们这一个利用爬虫爬取一个网址里面的汇率值(一直在更新的),这里我们利用Xpath来获取这个数据值 其次我们发现在之前的程序里面,我们好像只能输入两位数的货币数据,这一次我们通过正负索引的方法,只获取除了最
-
关于python中的xpath解析定位
爬取的网站:http://jbk.39.net/chancegz/ 这里只针对个别属性值: #例如:'别名'下的span标签文本,'发病部位'下的span标签文本以及'挂号科室'下的span标签文本 # def disease(url): text = get_html(url) tree = etree.HTML(text) bm = tree.xpath('//ul[@class="information_ul"]/li/i[text()="别名:"]/foll
-
python定位xpath 节点位置的方法
chrome 右键有copy xpath地址 但是有些时候获取的可能不对 可以自己用代码验证一下 如果还是不行 可以考虑从源码当中取出来 趁热打铁,使用前一篇文章中 XPath 节点来定位HTML 页面. HTML文件如下(您可以将其拷贝,保存成html文件,跟我笔者实验): <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title
-
Python利用Xpath选择器爬取京东网商品信息
HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树:XPath 使用路径表达式在 XML 文档中选取节点.节点是通过沿着路径或者 step 来选取的. 首先进入京东网,输入自己想要查询的商品,向服务器发送网页请求.在这里小编仍以关键词"狗粮"作为搜索对象,之后得到后面这一串网址: https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8,其中参
-
Python Selenium XPath根据文本内容查找元素的方法
问题现象 元素的属性中没有id.name:虽然有class,但比较大众化,且位置也不固定:例如:页码中的下一页:那该如何找到该元素? <a class="paging">上一页</div> <a class="paging">1</div> <a class="paging">2</div> <a class="paging">下一页</
-
python 网页解析器掌握第三方 lxml 扩展库与 xpath 的使用方法
今天说的则是使用另外一种扩展库 lxml 来对网页完成解析.同样的,lxml 库能完成对 html.xml 格式的文件解析,并且能够用来解析大型的文档.解析速度也是相对比较快的. 要掌握 lxml 的使用,就需要掌握掌握 xpath 的使用方法,因为 lxml 扩展库就是基于 xpath 的,所以这一章的重点主要还是对 xpath 语法使用的说明. 1.导入 lxml 扩展库.并创建对象 # -*- coding: UTF-8 -*- # 从 lxml 导入 etree from lxml im
-
Python使用requests xpath 并开启多线程爬取西刺代理ip实例
我就废话不多说啦,大家还是直接看代码吧! import requests,random from lxml import etree import threading import time angents = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compati
随机推荐
- hadoop map-reduce中的文件并发操作
- springboot下配置多数据源的方法
- Python 返回汉字的汉语拼音
- js open() 与showModalDialog()方法使用介绍
- 新入域的计算机枚举,显示加域人员的批处理
- 基于JS递归函数细化认识及实用实例(推荐)
- JS去除数组重复值的五种不同方法
- 浅析Node在构建超媒体API中的作用
- 函数式 JavaScript(一)简介
- Linux下用dnsmasq做dns cache server的配置方法
- 非常不错的Google Adsense 提示100条
- Java自动拆装箱简单介绍
- Android Recyclerview实现上拉加载更多功能
- Java开发者结合Node.js编程入门教程
- 解析Java的可变长参数列表及其使用时的注意点
- ios App加载本地HTML网页,点击网页链接跳转到app页面的方法
- Android开发之Activity管理工具类完整示例
- Python中的Numpy矩阵操作
- python将三维数组展开成二维数组的实现
- 如何使用python代码操作git代码