python解析xml模块封装代码

2025-03-05 01:01:00

有如下的xml文件：

代码如下:

<?xml version="1.0" encoding="utf-8" ?>
<root>
<childs>
<child name='first' >1</child>
<child value="2">2</child>
</childs>
</root>

下面介绍python解析xml文件的几种方法，使用python模块实现。

方式1，python模块实现自动遍历所有节点：

代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from xml.sax.handler import ContentHandler
from xml.sax import parse
class TestHandle(ContentHandler):
def __init__(self, inlist):
self.inlist = inlist

def startElement(self,name,attrs):
print 'name:',name, 'attrs:',attrs.keys()

def endElement(self,name):
print 'endname',name

def characters(self,chars):
print 'chars',chars
self.inlist.append(chars)

if __name__ == '__main__':
    lt = []
    parse('test.xml', TestHandle(lt))
    print lt

结果：
[html] view plaincopy
name: root attrs: []
chars

endname childs
chars

endname root
[u'\n', u'\n', u'1', u'\n', u'2', u'\n', u'\n']

方式2，python模块实现获取根节点，按需查找指定节点：

代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from xml.dom import minidom
xmlstr = '''''<?xml version="1.0" encoding="UTF-8"?>
<hash>
    <request name='first'>/2/photos/square/type.xml</request>
    <error_code>21301</error_code>
    <error>auth faild!</error>
</hash>
'''
def doxml(xmlstr):
    dom = minidom.parseString(xmlstr)
    print 'Dom:'
    print dom.toxml()

root = dom.firstChild
    print 'root:'
    print root.toxml()

childs = root.childNodes
    for child in childs:
        print child.toxml()
        if child.nodeType == child.TEXT_NODE:
            pass
        else:
            print 'child node attribute name:', child.getAttribute('name')
            print 'child node name:', child.nodeName
            print 'child node len:',len(child.childNodes)
            print 'child data:',child.childNodes[0].data
            print '======================================='
            print 'more help info to see:'
            for med in dir(child):
                print help(med)

if __name__ == '__main__':
doxml(xmlstr)

结果：
[html] view plaincopy
Dom:
<?xml version="1.0" ?><hash>
    <request name="first">/2/photos/square/type.xml</request>
    <error_code>21301</error_code>
    <error>auth faild!</error>
</hash>
root:
<hash>
    <request name="first">/2/photos/square/type.xml</request>
    <error_code>21301</error_code>
    <error>auth faild!</error>
</hash>

<request name="first">/2/photos/square/type.xml</request>
child node attribute name: first
child node name: request
child node len: 1
child data: /2/photos/square/type.xml
=======================================
more help info to see:
两种方法各有其优点，python的xml处理模块太多，目前只用到这2个。

=====补充分割线================
实际工作中发现python的mimidom无法解析其它编码的xml，只能解析utf-8的编码，而其xml文件的头部申明也必须是utf-8，为其它编码会报错误。
网上的解决办法都是替换xml文件头部的编码申明，然后转换编码为utf-8再用minidom解码，实际测试为可行，不过有点累赘的感觉。

本节是 python解析xml模块封装代码的第二部分。
====写xml内容的分割线=========

代码如下:

#!\urs\bin\env python
#encoding: utf-8
from xml.dom import minidom

class xmlwrite:
    def __init__(self, resultfile):
        self.resultfile = resultfile
        self.rootname = 'api'
        self.__create_xml_dom()

def __create_xml_dom(self):
        xmlimpl = minidom.getDOMImplementation()
        self.dom = xmlimpl.createDocument(None, self.rootname, None)
        self.root = self.dom.documentElement

def __get_spec_node(self, xpath):
        patharr = xpath.split(r'/')
        parentnode = self.root
        exist = 1
        for nodename in patharr:
            if nodename.strip() == '':
                continue
            if not exist:
                return None
            spcindex = nodename.find('[')
            if spcindex > -1:
                index = int(nodename[spcindex+1:-1])
            else:
                index = 0
            count = 0
            childs = parentnode.childNodes
            for child in childs:
                if child.nodeName == nodename[:spcindex]:
                    if count == index:
                        parentnode = child
                        exist = 1
                        break
                    count += 1
                    continue
                else:
                    exist = 0
        return parentnode

def write_node(self, parent, nodename, value, attribute=None, CDATA=False):
        node = self.dom.createElement(nodename)
        if value:
            if CDATA:
                nodedata = self.dom.createCDATASection(value)
            else:
                nodedata = self.dom.createTextNode(value)
            node.appendChild(nodedata)
            if attribute and isinstance(attribute, dict):
                for key, value in attribute.items():
                    node.setAttribute(key, value)
        try:
            parentnode = self.__get_spec_node(parent)
        except:
            print 'Get parent Node Fail, Use the Root as parent Node'
            parentnode = self.root
        parentnode.appendChild(node)

def write_start_time(self, time):
self.write_node('/','StartTime', time)

def write_end_time(self, time):
self.write_node('/','EndTime', time)

def write_pass_count(self, count):
self.write_node('/','PassCount', count)

def write_fail_count(self, count):
self.write_node('/','FailCount', count)

def write_case(self):
self.write_node('/','Case', None)

def write_case_no(self, index, value):
self.write_node('/Case[%s]/' % index,'No', value)

def write_case_url(self, index, value):
self.write_node('/Case[%s]/' % index,'URL', value)

def write_case_dbdata(self, index, value):
self.write_node('/Case[%s]/' % index,'DBData', value)

def write_case_apidata(self, index, value):
self.write_node('/Case[%s]/' % index,'APIData', value)

def write_case_dbsql(self, index, value):
self.write_node('/Case[%s]/' % index,'DBSQL', value, CDATA=True)

def write_case_apixpath(self, index, value):
self.write_node('/Case[%s]/' % index,'APIXPath', value)

def save_xml(self):
        myfile = file(self.resultfile, 'w')
        self.dom.writexml(myfile, encoding='utf-8')
        myfile.close()

if __name__ == '__main__':
      xr = xmlwrite(r'D:\test.xml')
      xr.write_start_time('2223')
      xr.write_end_time('444')
      xr.write_pass_count('22')
      xr.write_fail_count('33')
      xr.write_case()
      xr.write_case()
      xr.write_case_no(0, '0')
      xr.write_case_url(0, 'http://www.google.com')
      xr.write_case_url(0, 'http://www.google.com')
      xr.write_case_dbsql(0, 'select * from ')
      xr.write_case_dbdata(0, 'dbtata')
      xr.write_case_apixpath(0, '/xpath')
      xr.write_case_apidata(0, 'apidata')
      xr.write_case_no(1, '1')
      xr.write_case_url(1, 'http://www.baidu.com')
      xr.write_case_url(1, 'http://www.baidu.com')
      xr.write_case_dbsql(1, 'select 1 from ')
      xr.write_case_dbdata(1, 'dbtata1')
      xr.write_case_apixpath(1, '/xpath1')
      xr.write_case_apidata(1, 'apidata1')
      xr.save_xml()

以上封装了minidom，支持通过xpath来写节点，不支持xpath带属性的匹配，但支持带索引的匹配。
比如：/root/child[1], 表示root的第2个child节点。

Python中的两个内置模块介绍

使用了Python一段时间后,可以说Python的基本单位就是模块了,在使用模块的时候我们一般会使用通过import语句来将其导入,但是我们在没有导入任何模块的时候,我们却能使用这样的一些函数:int(),str(),len(),range(),以及使用try except语句来捕获异常,那么这些又是从哪儿来的呢. 基本 Python在启动时会自动导入内建的__builtin__和exceptions这两个模块, 使任何程序都能够使用它们,所以说这两个模块应该是整个Python语言中最重要的模块
Python常用模块用法分析

本文较为详细的讲述了Python中常用的模块,分享给大家便于大家查阅参考之用.具体如下: 1.内置模块(不用import就可以直接使用) 常用内置函数: help(obj) 在线帮助, obj可是任何类型 callable(obj) 查看一个obj是不是可以像函数一样调用 repr(obj) 得到obj的表示字符串,可以利用这个字符串eval重建该对象的一个拷贝 eval_r(str) 表示合法的python表达式,返回这个表达式 dir(obj) 查看obj的name space中可见的nam
Python常用内置模块之xml模块(详解)

xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言.从结构上,很像HTML超文本标记语言.但他们被设计的目的是不同的,超文本标记语言被设计用来显示数据,其焦点是数据的外观.它被设计用来传输和存储数据,其焦点是数据的内容.那么Python是如何处理XML语言文件的呢?下面一起来看看Python常用内置模块之xml模块吧. 本文主要学习的ElementTree是python的XML处理模块,它提供了一个轻量级的对象模型.在使用ElementTre
python解析xml模块封装代码

有如下的xml文件: 复制代码代码如下: <?xml version="1.0" encoding="utf-8" ?> <root> <childs> <child name='first' >1</child> <child value="2">2</child> </childs> </root> 下面介绍python解
python 解析XML python模块xml.dom解析xml实例代码

一 .python模块 xml.dom 解析XML的APIminidom.parse(filename)加载读取XML文件 doc.documentElement获取XML文档对象 node.getAttribute(AttributeName)获取XML节点属性值 node.getElementsByTagName(TagName)获取XML节点对象集合 node.childNodes #返回子节点列表. node.childNodes[index].nodeValue获取XML节点值 nod
Python3使用xml.dom.minidom和xml.etree模块儿解析xml文件封装函数的方法

总结了一下使用Python对xml文件的解析,用到的模块儿如下: 分别从xml字符串和xml文件转换为xml对象,然后解析xml内容,查询指定信息字段. from xml.dom.minidom import parse, parseString from xml.etree import ElementTree import xml.dom.minidom """ Get XML String info 查询属性值 response:xml string tag:xml t
用Python解析XML的几种常见方法的介绍

一.简介 XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用.它是web发展到一定阶段的必然产物,既具有SGML的核心特征,又有着HTML的简单特性,还具有明确和结构良好等许多新的特性. python解析XML常见的有三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合,注意xml.dom包里面有许多模块
深入解读Python解析XML的几种方式

在XML解析方面,Python贯彻了自己"开箱即用"(batteries included)的原则.在自带的标准库中,Python提供了大量可以用于处理XML语言的包和工具,数量之多,甚至让Python编程新手无从选择. 本文将介绍深入解读利用Python语言解析XML文件的几种方式,并以笔者推荐使用的ElementTree模块为例,演示具体使用方法和场景.文中所使用的Python版本为2.7. 一.什么是XML? XML是可扩展标记语言(Extensible Markup Langu
Python解析xml中dom元素的方法

本文实例讲述了Python解析xml中dom元素的方法.分享给大家供大家参考.具体实现方法如下: 复制代码代码如下: from xml.dom import minidom try: xmlfile = open("path.xml", "a+") #xmldoc = minidom.parse( sys.argv[1]) xmldoc = minidom.parse(xmlfile) except : #updatelogger.
python解析xml文件操作实例

本文实例讲述了python解析xml文件操作的实现方法.分享给大家供大家参考.具体方法如下: xml文件内容如下: <?xml version="1.0" ?>  <book> <title> sample xml thing </title> <author> <name> <first> ma </first
python解析xml文件实例分析

本文实例讲述了python解析xml文件的方法.分享给大家供大家参考.具体如下: python解析xml非常方便.在dive into python中也有讲解. 如果xml的结构如下: <?xml version="1.0" encoding="utf-8"?> <books> <book> <author>zoer</author> <title>think in java</title
python解析xml简单示例

本文实例讲述了python解析xml的方法.分享给大家供大家参考,具体如下: xml是除了json之外另外一个比较常用的用来做为数据交换的载体格式.对于一些比较固定的数据,直接保存在xml中,还可以免去去数据库中查询的麻烦.而且直接读小文件,性能比查询数据库应该更好,下面一个例子,如何用python解析xml数据,xml数据是省份,城市数据,内容如下: <?xml version="1.0" encoding="utf-8" ?> <countr
python解析xml文件方式(解析、更新、写入)

Overview 这篇博客内容将包括对XML文件的解析.追加新元素后写入到XML,以及更新原XML文件中某结点的值.使用的是python的xml.dom.minidom包,详情可见其官方文档:xml.dom.minidom官方文档.全文都将围绕以下的customer.xml进行操作: <?xml version="1.0" encoding="utf-8" ?>  <c

python解析xml模块封装代码

相关推荐

随机推荐