进一步了解Python中的XML 工具

模块:xmllib

xmllib 是一个非验证的低级语法分析器。应用程序员使用的 xmllib 可以覆盖 XMLParser 类,并提供处理文档元素(如特定或类属标记,或字符实体)的方法。从 Python 1.5x 到 Python 2.0+ 以来, xmllib 的使用方法并没变化;在绝大多数情况下更好的选择是使用 SAX 技术,它也是种面向流的技术,对语言和开发者来说更为标准。

本文中的示例与原来专栏中的相同:包括一个叫做 quotations.dtd 的 DTD 以及这个 DTD 的文档 sample.xml (请参阅 参考资料,以获取本文中提到的文件的档案)。以下的代码显示了 sample.xml 中每段引言的前几行,并生成了非常简单的未知标记和实体的 ASCII 指示符。经过分析的文本作为连续流来处理,所使用的任何累加器都由程序员负责(如标记中的字符串 (#PCDATA),或所遇到的标记的列表或词典)。
清单 1: try_xmllib.py

import
         xmllib, string

    classQuotationParser

        (xmllib.XMLParser):
  """Crude xmllib extractor for quotations.dtd document"""

    def__init__

        (self):
    xmllib.XMLParser.__init__(self)
    self.thisquote = ''       

    # quotation accumulator

     defhandle_data

        (self, data):
    self.thisquote = self.thisquote + data

    defsyntax_error
        (self, message):

    pass
  defstart_quotations
        (self, attrs): 

    # top level tag

     print

         '--- Begin Document ---'

    defstart_quotation
        (self, attrs):

    print
         'QUOTATION:'

    defend_quotation
        (self):

    print

         string.join(string.split(self.thisquote[:230]))+'...',

    print

         '('+str(len(self.thisquote))+' bytes)\n'
    self.thisquote = ''

    defunknown_starttag

        (self, tag, attrs):
    self.thisquote = self.thisquote + '{'

    defunknown_endtag

        (self, tag):
    self.thisquote = self.thisquote + '}'

    defunknown_charref

        (self, ref):
    self.thisquote = self.thisquote + '?'

    defunknown_entityref

        (self, ref):
    self.thisquote = self.thisquote + '#'

    if

         __name__ == '__main__':
  parser = QuotationParser()

    for
         c 

    in
         open("sample.xml").read():
    parser.feed(c)
  parser.close()

验证

您可能需要展望标准 XML 支持的未来的原因是,在进行语法分析的同时需要进行验证。不幸的是,标准 Python 2.0 XML 包并不包括验证型语法分析器。

xmlproc 是 python 原有的语法分析器,它执行几乎完整的验证。如果需要验证型语法分析器, xmlproc 是 Python 当前唯一的选择。而且, xmlproc 提供其它语法分析器所不具备的各种高级和测试接口。

选择一种语法分析器

如果决定使用 XML 的简单 API (SAX) -- 它应该用于复杂的事物,因为其它大部分工具都是在它的基础上建立的 -- 将为您完成许多语法分析器的分类工作。 xml.sax 模块包含一个自动选择“最佳”语法分析器的设施。在标准 Python 2.0 安装中,唯一能选择的语法分析器是 expat ,它是种 C 语言编写的快速扩展。然而,也可以在 $PYTHONLIB/xml/parsers 下安装另一个语法分析器,以备选择。设置语法分析器很简单:
清单 2: Python 选择最佳语法分析器的语句

import
         xml.sax
parser = xml.sax.make_parser()

您还可以通过传递参数来选择特定的语法分析器;但考虑到可移植性 -- 也为了对今后更好的语法分析器的向上兼容性 -- 最佳方法是使用 make_parser() 来完成工作。

您可以直接导入 xml.parsers.expat 。如果这样做,您就能获得 SAX 界面并不提供的一些特殊技巧。这样, xml.parsers.expat 与 SAX 相比有些“低级”。但 SAX 技术非常标准,对面向流的处理也非常好;大多数情况下 SAX 的级别正合适。通常情况下,由于 make_parser() 函数已经能获得 expat 提供的性能,因此纯速度的差异很小。

什么是 SAX

考虑到背景因素,回答什么是 SAX 的较好答案是:

SAX (XML 的简单 API)是 XML 语法分析器的公用语法分析器接口。它允许应用程序作者编写使用 XML 语法分析器的应用程序,但是它却独立于所使用的语法分析器。(将它看作 XML 的 JDBC。)(Lars Marius Garshol,SAX for Python)

SAX -- 如同它提供的语法分析器模块的 API -- 基本上是一个 XML 文档的顺序处理器。使用它的方法与 xmllib 示例极其相似,但更加抽象。应用程序员将定义一个 handler 类,而不是语法分析器类,该 handler 类能注册到任何所使用的语法分析器中。必须定义 4 个 SAX 接口(每个接口都有几个方法):DocumentHandler、DTDHandler、EntityResolver 和 ErrorHandler。创建语法分析器除非被覆盖,否则它还连接默认接口。这些代码执行与 xmllib 示例相同的任务:
清单 3: try_sax.py

"Simple SAX example, updated for Python 2.0+"

    import
         string

    import
         xml.sax

    from
         xml.sax.handler 

    import
         *

    classQuotationHandler

  (ContentHandler):
  """Crude extractor for quotations.dtd compliant XML document"""

    def__init__

  (self):
    self.in_quote = 0
    self.thisquote = ''

    defstartDocument

  (self):

    print

         '--- Begin Document ---'

    defstartElement

  (self, name, attrs):

    if

         name == 'quotation':

    print

         'QUOTATION:'
      self.in_quote = 1

    else:

      self.thisquote = self.thisquote + '{'

    defendElement

  (self, name):

    if

         name == 'quotation':

    print

         string.join(string.split(self.thisquote[:230]))+'...',

    print

         '('+str(len(self.thisquote))+' bytes)\n'
      self.thisquote = ''
      self.in_quote = 0

    else:

      self.thisquote = self.thisquote + '}'

    defcharacters

  (self, ch):

    if

         self.in_quote:
      self.thisquote = self.thisquote + ch

    if
         __name__ == '__main__':
  parser = xml.sax.make_parser()
  handler = QuotationHandler()
  parser.setContentHandler(handler)
  parser.parse("sample.xml")

与 xmllib 相比,上述示例中要注意两件小事: .parse() 方法处理整个流或字符串,所以不必为语法分析器创建循环; .parse() 同样能灵活地接收一个文件名、一个文件对象,或是众多的类文件对象(一些具有 .read() 方式)。

包:DOM

DOM 是一种 XML 文档的高级树型表示。该模型并非只针对 Python,而是一种普通 XML 模型(请参阅 参考资料以获取进一步信息)。Python 的 DOM 包是基于 SAX 构建的,并且包括在 Python 2.0 的标准 XML 支持里。由于篇幅所限,没有将代码示例加到本文中,但在 XML-SIG 的 "Python/XML HOWTO" 中给出了一个极好的总体描述:

文档对象模型为 XML 文档指定了树型表示。顶级文档实例是树的根,它只有一个子代,即顶级元素实例;这个元素有表示内容和子元素的子节点,他们也可以有子代,以此类推。定义的函数允许随意遍历结果树,访问元素和属性值,插入和删除节点,以及将树转换回 XML。

DOM 可以用于修改 XML 文档,因为可以创建一棵 DOM 树,通过添加新节点和来回移动子树来修改这棵树,然后生成一个新的 XML 文档作为输出。您也可以自己构造一棵 DOM 树,然后将它转换成 XML;用这种方法生成 XML 输出比仅将 <tag1>...</tag1> 写入文件的方法更灵活。

使用 xml.dom 模块的语法与早期的文章相比有了一些变动。Python 2.0 中自带的 DOM 实现被称为 xml.dom.minidom ,并提供轻量级和小型版本的 DOM。显然,完整的 XML-SIG 的 DOM 中有些试验性的特性并未被放入 xml.dom.minidom 中,但大家并不会注意到这一点。

生成 DOM 对象很简单;只需:
清单 4: 在 XML 文件中创建 Python DOM 对象

from
         xml.dom.minidom 

    import

         parse, parseString
dom1 = parse('mydata.xml') 

    # parse an XML file by name

使用 DOM 对象是种非常直接的 OOP 模式的工作。然而,经常在无法立刻简单区分的层级(除了循环列举)中碰到许多类似清单的属性。例如,以下是一段普通的 DOM Python 代码片断:
清单 5: 通过 Python DOM 节点对象的迭代

for
         node 

    in
         dom_node.childNodes:

    if

         node.nodeName == '#text':   

    # PCDATA is a kind of node,
    PCDATA = node.nodeValue    

    # but not a new subtag

     elif

         node.nodeName == 'spam':
    spam_node_list.append(node) 

    # Create list of <spam> nodes

Python 标准说明文档中有一些更详细的 DOM 示例。我的早期文章中有关使用 DOM 对象的示例(请参阅 参考资料)指出的方向仍然是正确的,但是文章发布后至今,一些方法和属性名称以更改,因此请查阅一下 Python 的说明文档。

模块: pyxie

pyxie 模块是在 Python 标准 XML 支持之上构建的,它为 XML 文档提供了附加的高级接口。 pyxie 将完成两项基本操作:它将 XML 文档转换成一种更易于进行语法分析的基于行的格式;并且它提供了将 XML 文档当作可操作树处理的方法。 pyxie 所使用的基于行的 PYX 格式是不受语言限制的,其工具适用于几种语言。总之,文档的 PYX 表示与其 XML 表示相比,更易于使用常见的基于行的文本处理工具进行处理,如 grep、sed、awk、bash、perl,或标准 python 模块,如 string 和 re 。根据结果,从 XML 转换到 PYX 可能节省许多工作。

pyxie 将 XML 文档当作树处理的概念与 DOM 中的思路相似。由于 DOM 标准得到许多编程语言的广泛支持,那么如果 XML 文档的树型表示是必需的,大多数程序员会使用 DOM 标准而非 pyxie 。

更多模块: xml_pickle 和 xml_objectify

我自行开发了处理 XML 的高级模块,称为 xml_pickle 和 xml_objectify 。我还在其它地方写过许多类似模块(请参阅 参考资料),在此不必做过多的介绍。当你“用 Python 思考”而不是“用 XML 思考”时,这些模块非常有用。特别是 xml_objectify 自身对程序员隐藏了几乎所有的 XML 线索,使您在程序中充分使用 Python “原始”对象。实际的 XML 数据格式几乎被抽象得不可见。同样, xml_pickle 使 Python 程序员以“原始” Python 对象开始,该对象的数据可以来源于任何源代码,然后把它们(连续地)放入其他用户以后可能需要的 XML 格式。

(0)

相关推荐

  • Python实现Const详解

    python语言本身没有提供const,但实际开发中经常会遇到需要使用const的情形,由于语言本身没有这种支出,因此需要使用一些技巧来实现这一功能 定义const类如下 复制代码 代码如下: import sys class Const(object):     class ConstError(TypeException): pass     def __setattr__(self, key, value):         if self.__dict__.has_key(key):  

  • Python操作MySQL简单实现方法

    本文实例讲述了Python操作MySQL简单实现方法.分享给大家供大家参考.具体分析如下: 一.安装: 安装MySQL 安装MySQL不用多说了,下载下来安装就是,没有特别需要注意的地方. 一个下载地址:点击打开链接 二.示例: 复制代码 代码如下: # coding=utf-8 import MySQLdb   #查询数量 def Count(cur):    count=cur.execute('select * from Student')    print 'there has %s r

  • Python使用random和tertools模块解一些经典概率问题

    random 模块中的常用函数 复制代码 代码如下: random() 返回一个位于区间 [0,1] 内的实数: uniform(a, b) 返回一个位于区间 [a,b] 内的实数: randint(a, b) 返回一个位于区间 [a,b] 内的整数: choice(sequence) 返回一个位于 sequence 中的元素,其中,sequence 为一个有序序列,如 list.string 或者 tuple 等类型: randrange([start], stop[, step]) 等效于

  • 进一步了解Python中的XML 工具

    模块:xmllib xmllib 是一个非验证的低级语法分析器.应用程序员使用的 xmllib 可以覆盖 XMLParser 类,并提供处理文档元素(如特定或类属标记,或字符实体)的方法.从 Python 1.5x 到 Python 2.0+ 以来, xmllib 的使用方法并没变化:在绝大多数情况下更好的选择是使用 SAX 技术,它也是种面向流的技术,对语言和开发者来说更为标准. 本文中的示例与原来专栏中的相同:包括一个叫做 quotations.dtd 的 DTD 以及这个 DTD 的文档

  • 详解Python中的测试工具

    当我们在写程序的时候,我们需要通过测试来验证程序是否出错或者存在问题,但是,编写大量的测试来确保程序的每个细节都没问题会显得很繁琐.在Python中,我们可以借助一些标准模块来帮助我们自动完成测试过程,比如: unittest: 一个通用的测试框架: doctest: 一个更简单的模块,是为检查文档而设计的,但也非常适合用来编写单元测试. 下面,笔者将会简单介绍这两个模块在测试中的应用. doctest doctest模块会搜索那些看起来像是python交互式会话中的代码片段,然后尝试执行并验证

  • 详细解读Python中解析XML数据的方法

    Python可以使用 xml.etree.ElementTree 模块从简单的XML文档中提取数据. 为了演示,假设你想解析Planet Python上的RSS源.下面是相应的代码: from urllib.request import urlopen from xml.etree.ElementTree import parse # Download the RSS feed and parse it u = urlopen('http://planet.python.org/rss20.xm

  • Python中一些自然语言工具的使用的入门教程

    NLTK 是使用 Python 教学以及实践计算语言学的极好工具.此外,计算语言学与人工 智能.语言/专门语言识别.翻译以及语法检查等领域关系密切. NLTK 包括什么 NLTK 会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之上.那些熟悉人工语言(比如 Python)的文法 和解析的读者来说,理解自然语言模型中类似的 -- 但更深奥的 -- 层不会有太大困难. 术语表 全集(Corpora):相关文本的集合.例如,莎士比亚的作品可能被统称为一个 文集(corpus): 而若干个作者

  • 进一步理解Python中的函数编程

    我们最好从最难的问题开始:"到底什么是函数编程 (FP)?"一个答案可能会说 FP 就是您在使用例如 Lisp.Scheme.Haskell.ML.OCAML.Clean.Mercury.Erlang(或其它一些)语言进行编程时所做的.这是一个稳妥的答案,但不能很确切地阐明问题.不幸的是,即使是函数程序员他们自己也很难对 FP 究竟是什么有个一致的认识."盲人摸象"的故事用来形容这一情况似乎很合适.还可以放心地将 FP 与"命令编程"(使用例如

  • Python中的XML库4Suite Server的介绍

    在继续阅读本文之前,您务必要对我们在本专栏中将要讨论的一些技术有所了解.我们要使用的技术包括:可扩展的样式表语言转换(Extensible Stylesheet Language Transformations,XSLT).XML 路径语言(XML Path Language,XPath)和资源描述框架(Resource Description Framework,RDF).在 参考资料部分有到关于所有这些技术的信息的链接. 4Suite Server 概述 我们将使用由本文作者参与开发的 XM

  • 在Python中处理XML的教程

    XML虽然比JSON复杂,在Web中应用也不如以前多了,不过仍有很多地方在用,所以,有必要了解如何操作XML. DOM vs SAX 操作XML有两种方法:DOM和SAX.DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点.SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件. 正常情况下,优先考虑SAX,因为DOM实在太占内存. 在Python中使用SAX解析XML非常简洁,通常我们关心的事件是start_element,end_e

  • 进一步探究Python中的正则表达式

    字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在.比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用. 正则表达式是一种用来匹配字符串的强有力的武器.它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它"匹配"了,否则,该字符串就是不合法的. 所以我们判断一个字符串是否是合法的Email的方法是: 创建一个匹配Email的正则表达式:

  • python中利用xml.dom模块解析xml的方法教程

    一.什么是xml?有何特征? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 例子:del.xml <?xml version="1.0" encoding="utf-8"?> <catalog> <maxid>4</maxid> <login username="pytest" passwd='123456'> <cap

  • Python中使用dom模块生成XML文件示例

    在Python中解析XML文件也有Dom和Sax两种方式,这里先介绍如何是使用Dom解析XML,这一篇文章是Dom生成XML文件,下一篇文章再继续介绍Dom解析XML文件. 在生成XML文件中,我们主要使用下面的方法来完成. 主要方法 1.生成XML节点(node) 复制代码 代码如下: createElement("node_name") 2.给节点添加属性值(Attribute) 复制代码 代码如下: node.setAttribute("att_name",

随机推荐