1分钟快速生成用于网页内容提取的xslt

2025-03-30 07:40:56

1分钟快速生成用于网页内容提取的xslt，具体内容如下

1、项目背景

在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫，而且能节省程序员大半的时间，而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文，我们已经看到这个提取规则是xslt程序，在示例程序中，直接把一长段xslt赋值给变量，但是没有讲这一段xslt是怎么来的。

网友必然会质疑：这个xslt这么长，编写不是要花很长时间？

实际情况是，这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的，熟练的话1分钟就搞定了。

2、MS谋数台能做什么

MS谋数台有个图形化界面，把一系列html解析工具集成在一起，包括：

基于直观标注自动生成XSLT
即时测试XSLT的正确性
树状的DOM结构展示
剖析某个DOM节点的属性
为DOM节点生成XPath，可选择定位到class、或者id、或者绝对定位
根据xpath搜索DOM节点

MS谋数台界面分成三部分：DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

3、用MS谋数台生成XSLT

假设我们要抓取论坛帖子列表，下面一步步讲解操作方法：
第一步，打开GooSeeker的MS谋数台，输入要抓取的网址
第二步，在MS谋数台的浏览器显示窗口里，直接选取要提取的内容，并且起个名字，点击确认

第三步，点击工作台的“测试”按钮，xslt就生成了，在“数据规则”窗口显示出来

通过以上的操作，不用编程，用图形化界面直接在页面上标注，1分钟就可以生成xslt

4、怎样使用XSLT

在python使用xslt提取网页数据一文，我们把生成xslt作为一个字符串交给程序，给人感觉好像一下子回到了史前文明，前面讲的那么好，最后用了很原始的拷贝。其实不然，那个只是一个例子。在《python即时网络爬虫项目: 内容提取器的定义》一文已经初见端倪了，有多种注入xslt的方式，最自动化的方式是api，将在后续文章中详细讲解。

5、文档修改历史

2016-05-28：V3.0，增加第二章
2016-05-26：V2.0，增补文字说明

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

您可能感兴趣的文章:

python使用xslt提取网页数据的方法
使用Python下的XSLT API进行web开发的简单教程
一个用xslt样式将xml解析为xhtml的类TransformBinder（兼容FF和IE7.0）
用xslt将xml解析成xhtml的代码
XSLT轻松入门第二章：XSLT的实例
python提取字典key列表的方法
Python实现从url中提取域名的几种方法
python利用正则表达式提取字符串
python使用正则表达式提取网页URL的方法
Python进行数据提取的方法总结

使用Python下的XSLT API进行web开发的简单教程

Kafka 样式的 soap 端点 Christopher Dix 所开发的"Kafka - XSL SOAP 工具箱"(请参阅参考资料)是一种用于构造 SOAP 端点的 XSLT 框架.它只涵盖了 SOAP 1.1,但 Kafka 端点演示了传递 UserLand SOAP 验证器(UserLand SOAP Validator)的能力,并且根据 SOAP 1.2 对它进行更新似乎并不太困难. 清单 1展示了一个样本 Kafka 端点:求两数之和的 SOAP 服务器(一个典型而简单
XSLT轻松入门第二章：XSLT的实例

2. XSLT的实例 2.1 XSLT如何转换XML 2.2 一个实例 2.3 过程解析 2.4 XSLT的用途 2.1 XSLT如何转换XML 我们打个有趣的比方,你玩过橡皮泥吧,用不同的模子按上去,就可以做出需要的形状.如果我们假设XML数据文档是一块大橡皮泥,XSLT就象是一个模子,用力一按,就做出需要的形状来---符合不同需要的HTML文档. 具体看下面的过程示意图: 我们将XML原文档输入,用XSL作为模板,通过转换引擎,最终输出需要的HTML文档.其中的转换引擎就是比喻中"用力一按&
用xslt将xml解析成xhtml的代码

使用xslt进行解析的基本格式是这样的:如复制代码代码如下: <?xml version="1.0" encoding="GB2312"?> <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:output method='html' version='1.0' encodin
python使用xslt提取网页数据的方法

1.引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第一部分,实验了用xslt方式一次性提取静态网页内容并转换成xml格式. 2.用lxml库实现网页内容提取 lxml是python的一个库,可以迅速.灵活地处理 XML.它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transform
python使用正则表达式提取网页URL的方法

本文实例讲述了python使用正则表达式提取网页URL的方法.分享给大家供大家参考.具体实现方法如下: import re import urllib url="http://www.jb51.net" s=urllib.urlopen(url).read() ss=s.replace(" ","") urls=re.findall(r"<a.*?href=.*?<\/a>",ss,re.I) for i i
python利用正则表达式提取字符串

前言正则表达式的基础知识就不说了,有兴趣的可以点击这里,提取一般分两种情况,一种是提取在文本中提取单个位置的字符串,另一种是提取连续多个位置的字符串.日志分析会遇到这种情况,下面我会分别讲一下对应的方法. 一.单个位置的字符串提取这种情况我们可以使用(.+?)这个正则表达式来提取. 举例,一个字符串"a123b",如果我们想提取ab之间的值123,可以使用findall配合正则表达式,这样会返回一个包含所以符合情况的list. 代码如下: import re str = "
Python实现从url中提取域名的几种方法

从url中找到域名,首先想到的是用正则,然后寻找相应的类库.用正则解析有很多不完备的地方,url中有域名,域名后缀一直在不断增加等.通过google查到几种方法,一种是用Python中自带的模块和正则相结合来解析域名,另一种是使第三方用写好的解析模块直接解析出域名. 要解析的url 复制代码代码如下: urls = ["http://meiwen.me/src/index.html", "http://1000chi.com/game/index.htm
python提取字典key列表的方法

本文实例讲述了python提取字典key列表的方法.分享给大家供大家参考.具体如下: 这段代码可以把字典的所有key输出为一个数组 d2 = {'spam': 2, 'ham': 1, 'eggs': 3} # make a dictionary print d2 # order is scrambled print d2.keys() # create a new list of my keys 希望本文所述对大家的Python程序设计有所帮助.
一个用xslt样式将xml解析为xhtml的类TransformBinder（兼容FF和IE7.0）

由于前面的方法xslt需要在xml文件内部直接导入,而项目中用到的xml文件是系统生成的,只能提供路径,而没有办法改写xml里面的内容,所以需要找一个方法能够在外部将xml和xslt关联在一起,这样既达到了目的,也可以应用于多个xml文件,方便管理. 先上代码,系统中使用module这个js进行打包,module这个工具是专门用来将js进行打包,这个工具以后的文章再做介绍,我自己现在只会使用,还没研究其底层的代码:这边我们将js写在一个文件里面,包括类以及类实现的方法, 下面是js代码:tran
Python进行数据提取的方法总结

准备工作首先是准备工作,导入需要使用的库,读取并创建数据表取名为loandata. import numpy as np import pandas as pd loandata=pd.DataFrame(pd.read_excel('loan_data.xlsx')) 设置索引字段在开始提取数据前,先将member_id列设置为索引字段.然后开始提取数据. Loandata = loandata.set_index('member_id') 按行提取信息第一步是按行提取数据,例如提取某个

1分钟快速生成用于网页内容提取的xslt

您可能感兴趣的文章:

相关推荐

随机推荐