Python数据提取-lxml模块

2025-01-31 15:24:05

知识点：

了解lxml模块和xpath语法的关系；
了解lxml模块的使用场景；
了解lxml模块的安装；
了解谷歌浏览器xpath helper插件的安装和使用；
掌握xpath语法-基础节点选择语法；
掌握 xpath语法 -节点修饰语法；
掌握xpath语法 - 其他常用语法；
掌握 lmxl模块中使用xpath语法定位元素提取数学值或文本内容；
掌握lxml模块etree.tostring函数的使用；

1、了解lxml模块和xpath语法

对html或xml形式的文本提取特定的内容，就需要我们掌握lxml模块的使用和xpath语法。

lxml模块可以利用xPath规则语法，来快速的定位HEML \ XML 文档中特定元素以及获取节点信息（文本内容、属性值）；
XPath (XML Path Language)是一门HTML\XML 文档中查找信息的语言，可用来在HTML|XML文档中对元素和属性进行遍历。
提取xml、html的数据需要lxml模块和xpath语法配合使用；

2、谷歌浏览器xpath helper插件的安装和使用

在谷歌浏览器中对当前页面测试xpath语法规则。
谷歌浏览器xpath helper插件的安装和使用

我们以windows为例进行xpath helper的安装。

xpath helper插件的安装：

1）、下载Chrome插件 XPath Helper
可以在Chrome应用商城进行下载，如果无法下载，也可以从下面的链接进行下载
2）、把文件的后缀名crx改为rar,然后解压到同名文件夹中；
3）、把解压后的文件夹拖入到已经开启开发者模式的chrome浏览器扩展程序界面；

3、xpath 的节点关系

学习xpath语法需要先了解xpath中的节点关系。

3.1 xpath中的节点什么

每个html、xml的标签我们都称之为节点，其中最顶层的节点称为根节点。我们以xml为例、html也是一样的。、

3.2 xpath中节点的关系

author 是 title的第一个兄弟节点。

4、xpath语法 - 选取节点以及提取属性或文本内容的语法

1）、XPath 使用路径表达式来选取XML文档中的节点或者节点集。
2）、这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似；
3）、使用chrome插件选择标签时候，选中的标签会添加属性class=“xh-highlight”;

4.1 xpath定位节点以及提取属性或文本内容的语法

5、xpath 语法 - 选取特定节点的语法

可以根据标签的属性值，下标等来获取特定的节点。

5.1 选取特定节点的语法

5.2 关于xpath的下标

在xpath中，第一个元素的位置是1；
最后一个元素的位置是last();
倒数第二个是last() - 1;

6、xpath语法 - 选取未知节点的语法

可以同通配符来选取未知的html、xml的元素。

6.1、选取未知节点的语法

7.lxml模块的安装与使用示例

lxml模块是一个第三方模块，安装之后使用。

7.1 lxml模块的安装

对发送请求获取的xml或html形式的响应内容进行提取。

pip install lxml

7.2 爬虫对html提取的内容

提取标签中的文本内容；
提取标签中的属性的值；
比如，提取a标签中href属性的值，获取url，进而继续发起请求。

7.3 lxml模块的使用

1）、导入lxml的etree库

from lxml import etree

2)、利用etree.HTML，将html字符串（bytes类型或str类型）转化为Element对象，Element对象具有xpath的方法，返回结果的类别。

html = etree.HTML(text)
ret_list = html.xpath("xpath语法规则字符串")

3)、xpath方法返回列表的三种情况
返回空列表：根据xpath语法规则字符串，没有定位到任何元素；
返回由字符串构成的列表：xpath字符串规则匹配的一定是文本内容或某属性的值；
返回由Element对象构成的列表：xpath规则字符串匹配的是标签，列表中的Element对象可以继续进行xpath;

import requests
from lxml import etree

class Tieba(object):

    def __init__(self,name):
        self.url = "https://tieba.baidu.com/f?ie=utf-8&kw={}".format(name)
        self.headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'
        }

    def get_data(self,url):
        response = requests.get(url,headers=self.headers)
        with open("temp.html","wb") as f:
            f.write(response.content)

        return response.content

    def parse_data(self,data):
        # 创建element对象
        data = data.decode().replace("<!--","").replace("-->","")
        html =etree.HTML(data)

        el_list = html.xpath('//li[@class="j_thread_list clearfix"]/div/div[2]/div[1]/div[1]/a')
        #print(len(el_list))

        data_list = []

        for el in el_list:
            temp = {}
            temp['title'] = el.xpath("./text()")[0]
            temp['link'] = 'http://tieba.baidu.com' + el.xpath("./@href")[0]
            data_list.append(temp)

        # 获取下一页url
        try:
            next_url = 'https:' + html.xpath('//a[contains(text(),"下一页"]/@href')[0]
        except:
            next_url = None

        return data_list,next_url

    def save_data(self,data_list):
        for data in data_list:
            print(data)

    def run(self):
        # url
        # headers
        next_url = self.url

        while True:

            # 发送请求，获取响应
            data = self.get_data(self.url)
            # 从响应中提取数据（数据和翻页用的url)
            data_list,next_url = self.parse_data(data)

            self.save_data(data_list)

            print(next_url)

            # 判断是否终结
            if next_url == None:
                break

if __name__ == '__main__':
    tieba =Tieba("传智播客")
    tieba.run()

8、lxml模块中etree.tostring函数的使用

运行下边的代码，观察对比html的原字符串和打印输出的结果

from lxml import etree

html_str = """<div<<ul>
        <li class="item-1"><a href="link1.html" rel="external nofollow" >first item</a></li>
        <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>
        <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>
        <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li>
        <li class="item=0"><a href="link5.html" rel="external nofollow" >fifth item</a>
        </ur></div>
"""

html = etree.HTML(html_str)

handeled_html_str = etree.tostring(html).decode()
print(handeled_html_str)

结论：

lxml.etree.HTML(html_str)可以自动补全标签；
lxml.etree.tostring 函数可以将转换位Element对象再转换回html字符串；
爬虫如果使用lxml来提取数据，应该以lxml.etree.tostring 的返回结果作为提取数据的依据；

到此这篇关于Python数据提取-lxml模块的文章就介绍到这了,更多相关Python -lxml模块内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

利用python对Excel中的特定数据提取并写入新表的方法

最近刚开始学python,正好实习工作中遇到对excel中的数据进行处理的问题,就想到利用python来解决,也恰好练手. 实际的问题是要从excel表中提取日期.邮件地址和时间,然后统计在一定时间段内某个人在某个项目上用了多少时间,最后做成一张数据透视表(这是问题的大致意思). 首先要做的就是数据提取了,excel中本身有一个text to column的功能,但是对列中规律性不好的数据处理效果很差,不能分割出想要的数据,所以我果断选择用python来完成. 要用的库一个是对excel读写处理
Python lxml模块的基本使用方法分析

本文实例讲述了Python lxml模块的基本使用方法.分享给大家供大家参考,具体如下: 1 lxml的安装安装方式:pip install lxml 2 lxml的使用 2.1 lxml模块的入门使用导入lxml 的 etree 库 (导入没有提示不代表不能用) from lxml import etree 利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据 html = etr
python 将json数据提取转化为txt的方法

如下所示: #-*- coding: UTF-8 -*- import json import pymysql import os import sys # 数据类型 # { # "name": "score.networkQuality", # "index": true, # "view": "app/views/score/networkQuality.tmpl.html", # "file
Python lxml模块安装教程

lxml是Python中与XML及HTML相关功能中最丰富和最容易使用的库.lxml并不是Python自带的包,而是为libxml2和libxslt库的一个Python化的绑定.它与众不同的地方是它兼顾了这些库的速度和功能完整性,以及纯Python API的简洁性,与大家熟知的ElementTree API兼容但比之更优越!但安装lxml却又有点麻烦,因为存在依赖,直接安装的话用easy_install, pip都不能成功,会报gcc错误.下面列出来Windows.Linux下面的安装方法: [
Python利用lxml模块爬取豆瓣读书排行榜的方法与分析

前言上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的首页地址是: https://www.douban.com/doulist/1264675/?start=0&sort=time&playable=0&sub_type= 该排行榜一共有22页,且发现更改网址的 start=0 的 0 为25.50就可以跳到排行榜的第二.第三页,所以后
python 数据提取及拆分的实现代码

K线数据提取依据原有数据集格式,按要求生成新表: 1.每分钟的close数据的第一条.最后一条.最大值及最小值, 2.每分钟vol数据的增长量(每分钟vol的最后一条数据减第一条数据) 3.汇总这些信息生成一个新表 (字段名:['time','open','close','high','low','vol']) import pandas as pd import time start=time.time() df=pd.read_csv('data.csv') df=df.drop('id'
Python进行数据提取的方法总结

准备工作首先是准备工作,导入需要使用的库,读取并创建数据表取名为loandata. import numpy as np import pandas as pd loandata=pd.DataFrame(pd.read_excel('loan_data.xlsx')) 设置索引字段在开始提取数据前,先将member_id列设置为索引字段.然后开始提取数据. Loandata = loandata.set_index('member_id') 按行提取信息第一步是按行提取数据,例如提取某个
Python数据提取-lxml模块

知识点: 了解lxml模块和xpath语法的关系: 了解lxml模块的使用场景: 了解lxml模块的安装: 了解谷歌浏览器xpath helper插件的安装和使用: 掌握xpath语法-基础节点选择语法: 掌握 xpath语法 -节点修饰语法: 掌握xpath语法 - 其他常用语法: 掌握 lmxl模块中使用xpath语法定位元素提取数学值或文本内容: 掌握lxml模块etree.tostring函数的使用: 1.了解lxml模块和xpath语法对html或xml形式的文本提取特定的内容,就
Python数据持久化shelve模块用法分析

本文实例讲述了Python数据持久化shelve模块用法.分享给大家供大家参考,具体如下: 一.简介在python3中我们使用json或者pickle持久化数据,能dump多次,但只能load一次,因为先前的数据已经被后面dump的数据覆盖掉了.如果我们想要实现dump和load多次,可以使用shelve模块.shelve模块可以持久化所有pickle所支持的数据类型. 二.持久化数据 1.数据持久化 import shelve import datetime info = {'name':
Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例

本文实例讲述了Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能.分享给大家供大家参考,具体如下: 因为需要使用叶子节点的路径来作为特征,但是原始的lxml模块解析之后得到的却是整个页面中所有节点的xpath路径,不是我们真正想要的形式,所以就要进行相关的处理才行了,差了很多网上的博客和文档也没有找到一个是关于输出html中全部叶子节点的API接口或者函数,也可能是自己没有那份耐心,没有找到合适的资源,只好放弃了寻找,但是这并不说明没有其他的方法了,在对页面全部节点
python实现提取COCO,VOC数据集中特定的类

1.python提取COCO数据集中特定的类安装pycocotools github地址:https://github.com/philferriere/cocoapi pip install git+https://github.com/philferriere/cocoapi.git#subdirectory=PythonAPI 提取特定的类别如下: from pycocotools.coco import COCO import os import shutil from tqdm im
Python探针完成调用库的数据提取

目录 1.简单粗暴的方法--对mysql库进行封装 2.Python的探针 3.制作探针模块 4.直接替换方法 5.总结 1.简单粗暴的方法--对mysql库进行封装要统计一个执行过程, 就需要知道这个执行过程的开始位置和结束位置, 所以最简单粗暴的方法就是基于要调用的方法进行封装,在框架调用MySQL库和MySQL库中间实现一个中间层, 在中间层完成耗时统计,如: # 伪代码 def my_execute(conn, sql, param): # 针对MySql库的统计封装组件 with M
利用python脚本提取Abaqus场输出数据的代码

笔者为科研界最后的摆烂王,目前利用python代码对Abaqus进行二次开发尚在学习中.欢迎各位摆烂的仁人志士们和我一起摆烂!ps:搞什么科研,如果不是被逼无奈,谁要搞科研! 该代码是学习过程中,对前人已有工作所做的稍加修改.为什么是稍加修改,是因为原代码跑不出来!!笔者在提取场输出的位移数据时,渴望偷懒,打算百度一下草草了事,奈何发现网上代码多半驴头不对马嘴,笔者明明是想提取位移,而不是节点和单元的集合!!所以被逼无奈之下,只好硬着头皮修改!欢迎各位大佬们把小弟代码更优化,然后也发给小弟,让小
Python数据报表之Excel操作模块用法分析

本文实例讲述了Python数据报表之Excel操作模块用法.分享给大家供大家参考,具体如下: 一点睛 Excel是当今最流行的电子表格处理软件,支持丰富的计算函数及图表,在系统运营方面广泛用于运营数据报表,比如业务质量.资源利用.安全扫描等报表,同时也是应用系统常见的文件导出格式,以便数据使用人员做进一步加工处理.利用Python操作Excel的模块XlsxWriter(https://xlsxwriter.readthedocs.org),可以操作多个工作表的文字.数字.公式.图表等. 二