进一步了解Python中的XML 工具

2025-03-04 22:25:02

模块：xmllib

xmllib 是一个非验证的低级语法分析器。应用程序员使用的 xmllib 可以覆盖 XMLParser 类，并提供处理文档元素（如特定或类属标记，或字符实体）的方法。从 Python 1.5x 到 Python 2.0+ 以来， xmllib 的使用方法并没变化；在绝大多数情况下更好的选择是使用 SAX 技术，它也是种面向流的技术，对语言和开发者来说更为标准。

本文中的示例与原来专栏中的相同：包括一个叫做 quotations.dtd 的 DTD 以及这个 DTD 的文档 sample.xml （请参阅参考资料，以获取本文中提到的文件的档案）。以下的代码显示了 sample.xml 中每段引言的前几行，并生成了非常简单的未知标记和实体的 ASCII 指示符。经过分析的文本作为连续流来处理，所使用的任何累加器都由程序员负责（如标记中的字符串 (#PCDATA)，或所遇到的标记的列表或词典）。
清单 1: try_xmllib.py

import
         xmllib, string

    classQuotationParser

        (xmllib.XMLParser):
  """Crude xmllib extractor for quotations.dtd document"""

    def__init__

        (self):
    xmllib.XMLParser.__init__(self)
    self.thisquote = ''       

    # quotation accumulator

     defhandle_data

        (self, data):
    self.thisquote = self.thisquote + data

    defsyntax_error
        (self, message):

    pass
  defstart_quotations
        (self, attrs): 

    # top level tag

     print

         '--- Begin Document ---'

    defstart_quotation
        (self, attrs):

    print
         'QUOTATION:'

    defend_quotation
        (self):

    print

         string.join(string.split(self.thisquote[:230]))+'...',

    print

         '('+str(len(self.thisquote))+' bytes)\n'
    self.thisquote = ''

    defunknown_starttag

        (self, tag, attrs):
    self.thisquote = self.thisquote + '{'

    defunknown_endtag

        (self, tag):
    self.thisquote = self.thisquote + '}'

    defunknown_charref

        (self, ref):
    self.thisquote = self.thisquote + '?'

    defunknown_entityref

        (self, ref):
    self.thisquote = self.thisquote + '#'

    if

         __name__ == '__main__':
  parser = QuotationParser()

    for
         c 

    in
         open("sample.xml").read():
    parser.feed(c)
  parser.close()

验证

您可能需要展望标准 XML 支持的未来的原因是，在进行语法分析的同时需要进行验证。不幸的是，标准 Python 2.0 XML 包并不包括验证型语法分析器。

xmlproc 是 python 原有的语法分析器，它执行几乎完整的验证。如果需要验证型语法分析器， xmlproc 是 Python 当前唯一的选择。而且， xmlproc 提供其它语法分析器所不具备的各种高级和测试接口。

选择一种语法分析器

如果决定使用 XML 的简单 API (SAX) -- 它应该用于复杂的事物，因为其它大部分工具都是在它的基础上建立的 -- 将为您完成许多语法分析器的分类工作。 xml.sax 模块包含一个自动选择“最佳”语法分析器的设施。在标准 Python 2.0 安装中，唯一能选择的语法分析器是 expat ，它是种 C 语言编写的快速扩展。然而，也可以在 $PYTHONLIB/xml/parsers 下安装另一个语法分析器，以备选择。设置语法分析器很简单：
清单 2: Python 选择最佳语法分析器的语句

import
         xml.sax
parser = xml.sax.make_parser()

您还可以通过传递参数来选择特定的语法分析器；但考虑到可移植性 -- 也为了对今后更好的语法分析器的向上兼容性 -- 最佳方法是使用 make_parser() 来完成工作。

您可以直接导入 xml.parsers.expat 。如果这样做，您就能获得 SAX 界面并不提供的一些特殊技巧。这样， xml.parsers.expat 与 SAX 相比有些“低级”。但 SAX 技术非常标准，对面向流的处理也非常好；大多数情况下 SAX 的级别正合适。通常情况下，由于 make_parser() 函数已经能获得 expat 提供的性能，因此纯速度的差异很小。

什么是 SAX

考虑到背景因素，回答什么是 SAX 的较好答案是：

SAX （XML 的简单 API）是 XML 语法分析器的公用语法分析器接口。它允许应用程序作者编写使用 XML 语法分析器的应用程序，但是它却独立于所使用的语法分析器。（将它看作 XML 的 JDBC。）（Lars Marius Garshol，SAX for Python）

SAX -- 如同它提供的语法分析器模块的 API -- 基本上是一个 XML 文档的顺序处理器。使用它的方法与 xmllib 示例极其相似，但更加抽象。应用程序员将定义一个 handler 类，而不是语法分析器类，该 handler 类能注册到任何所使用的语法分析器中。必须定义 4 个 SAX 接口（每个接口都有几个方法）：DocumentHandler、DTDHandler、EntityResolver 和 ErrorHandler。创建语法分析器除非被覆盖，否则它还连接默认接口。这些代码执行与 xmllib 示例相同的任务：
清单 3: try_sax.py

"Simple SAX example, updated for Python 2.0+"

    import
         string

    import
         xml.sax

    from
         xml.sax.handler 

    import
         *

    classQuotationHandler

  (ContentHandler):
  """Crude extractor for quotations.dtd compliant XML document"""

    def__init__

  (self):
    self.in_quote = 0
    self.thisquote = ''

    defstartDocument

  (self):

    print

         '--- Begin Document ---'

    defstartElement

  (self, name, attrs):

    if

         name == 'quotation':

    print

         'QUOTATION:'
      self.in_quote = 1

    else:

      self.thisquote = self.thisquote + '{'

    defendElement

  (self, name):

    if

         name == 'quotation':

    print

         string.join(string.split(self.thisquote[:230]))+'...',

    print

         '('+str(len(self.thisquote))+' bytes)\n'
      self.thisquote = ''
      self.in_quote = 0

    else:

      self.thisquote = self.thisquote + '}'

    defcharacters

  (self, ch):

    if

         self.in_quote:
      self.thisquote = self.thisquote + ch

    if
         __name__ == '__main__':
  parser = xml.sax.make_parser()
  handler = QuotationHandler()
  parser.setContentHandler(handler)
  parser.parse("sample.xml")

与 xmllib 相比，上述示例中要注意两件小事： .parse() 方法处理整个流或字符串，所以不必为语法分析器创建循环； .parse() 同样能灵活地接收一个文件名、一个文件对象，或是众多的类文件对象（一些具有 .read() 方式）。

包：DOM

DOM 是一种 XML 文档的高级树型表示。该模型并非只针对 Python，而是一种普通 XML 模型（请参阅参考资料以获取进一步信息）。Python 的 DOM 包是基于 SAX 构建的，并且包括在 Python 2.0 的标准 XML 支持里。由于篇幅所限，没有将代码示例加到本文中，但在 XML-SIG 的 "Python/XML HOWTO" 中给出了一个极好的总体描述：

文档对象模型为 XML 文档指定了树型表示。顶级文档实例是树的根，它只有一个子代，即顶级元素实例；这个元素有表示内容和子元素的子节点，他们也可以有子代，以此类推。定义的函数允许随意遍历结果树，访问元素和属性值，插入和删除节点，以及将树转换回 XML。

DOM 可以用于修改 XML 文档，因为可以创建一棵 DOM 树，通过添加新节点和来回移动子树来修改这棵树，然后生成一个新的 XML 文档作为输出。您也可以自己构造一棵 DOM 树，然后将它转换成 XML；用这种方法生成 XML 输出比仅将 <tag1>...</tag1> 写入文件的方法更灵活。

使用 xml.dom 模块的语法与早期的文章相比有了一些变动。Python 2.0 中自带的 DOM 实现被称为 xml.dom.minidom ，并提供轻量级和小型版本的 DOM。显然，完整的 XML-SIG 的 DOM 中有些试验性的特性并未被放入 xml.dom.minidom 中，但大家并不会注意到这一点。

生成 DOM 对象很简单；只需：
清单 4: 在 XML 文件中创建 Python DOM 对象

from
         xml.dom.minidom 

    import

         parse, parseString
dom1 = parse('mydata.xml') 

    # parse an XML file by name

使用 DOM 对象是种非常直接的 OOP 模式的工作。然而，经常在无法立刻简单区分的层级（除了循环列举）中碰到许多类似清单的属性。例如，以下是一段普通的 DOM Python 代码片断：
清单 5: 通过 Python DOM 节点对象的迭代

for
         node 

    in
         dom_node.childNodes:

    if

         node.nodeName == '#text':   

    # PCDATA is a kind of node,
    PCDATA = node.nodeValue    

    # but not a new subtag

     elif

         node.nodeName == 'spam':
    spam_node_list.append(node) 

    # Create list of <spam> nodes

Python 标准说明文档中有一些更详细的 DOM 示例。我的早期文章中有关使用 DOM 对象的示例（请参阅参考资料）指出的方向仍然是正确的，但是文章发布后至今，一些方法和属性名称以更改，因此请查阅一下 Python 的说明文档。

模块： pyxie

pyxie 模块是在 Python 标准 XML 支持之上构建的，它为 XML 文档提供了附加的高级接口。 pyxie 将完成两项基本操作：它将 XML 文档转换成一种更易于进行语法分析的基于行的格式；并且它提供了将 XML 文档当作可操作树处理的方法。 pyxie 所使用的基于行的 PYX 格式是不受语言限制的，其工具适用于几种语言。总之，文档的 PYX 表示与其 XML 表示相比，更易于使用常见的基于行的文本处理工具进行处理，如 grep、sed、awk、bash、perl，或标准 python 模块，如 string 和 re 。根据结果，从 XML 转换到 PYX 可能节省许多工作。

pyxie 将 XML 文档当作树处理的概念与 DOM 中的思路相似。由于 DOM 标准得到许多编程语言的广泛支持，那么如果 XML 文档的树型表示是必需的，大多数程序员会使用 DOM 标准而非 pyxie 。

更多模块： xml_pickle 和 xml_objectify

我自行开发了处理 XML 的高级模块，称为 xml_pickle 和 xml_objectify 。我还在其它地方写过许多类似模块（请参阅参考资料），在此不必做过多的介绍。当你“用 Python 思考”而不是“用 XML 思考”时，这些模块非常有用。特别是 xml_objectify 自身对程序员隐藏了几乎所有的 XML 线索，使您在程序中充分使用 Python “原始”对象。实际的 XML 数据格式几乎被抽象得不可见。同样， xml_pickle 使 Python 程序员以“原始” Python 对象开始，该对象的数据可以来源于任何源代码，然后把它们（连续地）放入其他用户以后可能需要的 XML 格式。

Python操作MySQL简单实现方法

本文实例讲述了Python操作MySQL简单实现方法.分享给大家供大家参考.具体分析如下: 一.安装: 安装MySQL 安装MySQL不用多说了,下载下来安装就是,没有特别需要注意的地方. 一个下载地址:点击打开链接二.示例: 复制代码代码如下: # coding=utf-8 import MySQLdb #查询数量 def Count(cur): count=cur.execute('select * from Student') print 'there has %s r
Python实现Const详解

python语言本身没有提供const,但实际开发中经常会遇到需要使用const的情形,由于语言本身没有这种支出,因此需要使用一些技巧来实现这一功能定义const类如下复制代码代码如下: import sys class Const(object): class ConstError(TypeException): pass def __setattr__(self, key, value): if self.__dict__.has_key(key):
Python使用random和tertools模块解一些经典概率问题

random 模块中的常用函数复制代码代码如下: random() 返回一个位于区间 [0,1] 内的实数: uniform(a, b) 返回一个位于区间 [a,b] 内的实数: randint(a, b) 返回一个位于区间 [a,b] 内的整数: choice(sequence) 返回一个位于 sequence 中的元素,其中,sequence 为一个有序序列,如 list.string 或者 tuple 等类型: randrange([start], stop[, step]) 等效于
进一步了解Python中的XML 工具

模块:xmllib xmllib 是一个非验证的低级语法分析器.应用程序员使用的 xmllib 可以覆盖 XMLParser 类,并提供处理文档元素(如特定或类属标记,或字符实体)的方法.从 Python 1.5x 到 Python 2.0+ 以来, xmllib 的使用方法并没变化:在绝大多数情况下更好的选择是使用 SAX 技术,它也是种面向流的技术,对语言和开发者来说更为标准. 本文中的示例与原来专栏中的相同:包括一个叫做 quotations.dtd 的 DTD 以及这个 DTD 的文档
详解Python中的测试工具

当我们在写程序的时候,我们需要通过测试来验证程序是否出错或者存在问题,但是,编写大量的测试来确保程序的每个细节都没问题会显得很繁琐.在Python中,我们可以借助一些标准模块来帮助我们自动完成测试过程,比如: unittest: 一个通用的测试框架: doctest: 一个更简单的模块,是为检查文档而设计的,但也非常适合用来编写单元测试. 下面,笔者将会简单介绍这两个模块在测试中的应用. doctest doctest模块会搜索那些看起来像是python交互式会话中的代码片段,然后尝试执行并验证
详细解读Python中解析XML数据的方法

Python可以使用 xml.etree.ElementTree 模块从简单的XML文档中提取数据. 为了演示,假设你想解析Planet Python上的RSS源.下面是相应的代码: from urllib.request import urlopen from xml.etree.ElementTree import parse # Download the RSS feed and parse it u = urlopen('http://planet.python.org/rss20.xm
Python中一些自然语言工具的使用的入门教程

NLTK 是使用 Python 教学以及实践计算语言学的极好工具.此外,计算语言学与人工智能.语言/专门语言识别.翻译以及语法检查等领域关系密切. NLTK 包括什么 NLTK 会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之上.那些熟悉人工语言(比如 Python)的文法和解析的读者来说,理解自然语言模型中类似的 -- 但更深奥的 -- 层不会有太大困难. 术语表全集(Corpora):相关文本的集合.例如,莎士比亚的作品可能被统称为一个文集(corpus): 而若干个作者
进一步理解Python中的函数编程

我们最好从最难的问题开始:"到底什么是函数编程 (FP)?"一个答案可能会说 FP 就是您在使用例如 Lisp.Scheme.Haskell.ML.OCAML.Clean.Mercury.Erlang(或其它一些)语言进行编程时所做的.这是一个稳妥的答案,但不能很确切地阐明问题.不幸的是,即使是函数程序员他们自己也很难对 FP 究竟是什么有个一致的认识."盲人摸象"的故事用来形容这一情况似乎很合适.还可以放心地将 FP 与"命令编程"(使用例如
Python中的XML库4Suite Server的介绍

在继续阅读本文之前,您务必要对我们在本专栏中将要讨论的一些技术有所了解.我们要使用的技术包括:可扩展的样式表语言转换(Extensible Stylesheet Language Transformations,XSLT).XML 路径语言(XML Path Language,XPath)和资源描述框架(Resource Description Framework,RDF).在参考资料部分有到关于所有这些技术的信息的链接. 4Suite Server 概述我们将使用由本文作者参与开发的 XM
在Python中处理XML的教程

XML虽然比JSON复杂,在Web中应用也不如以前多了,不过仍有很多地方在用,所以,有必要了解如何操作XML. DOM vs SAX 操作XML有两种方法:DOM和SAX.DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点.SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件. 正常情况下,优先考虑SAX,因为DOM实在太占内存. 在Python中使用SAX解析XML非常简洁,通常我们关心的事件是start_element,end_e
进一步探究Python中的正则表达式

字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在.比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用. 正则表达式是一种用来匹配字符串的强有力的武器.它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它"匹配"了,否则,该字符串就是不合法的. 所以我们判断一个字符串是否是合法的Email的方法是: 创建一个匹配Email的正则表达式:
python中利用xml.dom模块解析xml的方法教程

一.什么是xml?有何特征? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 例子:del.xml <?xml version="1.0" encoding="utf-8"?> <catalog> <maxid>4</maxid> <login username="pytest" passwd='123456'> <cap
Python中使用dom模块生成XML文件示例

在Python中解析XML文件也有Dom和Sax两种方式,这里先介绍如何是使用Dom解析XML,这一篇文章是Dom生成XML文件,下一篇文章再继续介绍Dom解析XML文件. 在生成XML文件中,我们主要使用下面的方法来完成. 主要方法 1.生成XML节点(node) 复制代码代码如下: createElement("node_name") 2.给节点添加属性值(Attribute) 复制代码代码如下: node.setAttribute("att_name",

进一步了解Python中的XML 工具

相关推荐

随机推荐