python基础教程项目三之万能的XML

2025-12-15 10:08:59

这个项目的名称与其叫做万能的XML不如叫做自动构建网站，根据一份XML文件，生成对应目录结构的网站，不过只有html还是太过于简单了，如果要是可以连带生成css那就比较强大了。这个有待后续研发，先来研究下怎么html网站结构。既然是通过XML结构生成网站，那所有的事情都应该由这个XML文件来。先来看下这个XML文件，website.xml：

<website>
 <page name="index" title="Home page">
 <h1>Welcome to my Home page</h1>
 <p>Hi, there. My name is Mr.gumby,and this is my home page,here are some of my int:</p>
 <ul>
  <li><a href="interests/shouting.html" rel="external nofollow" >Shouting</a></li>
  <li><a href="interests/sleeping.html" rel="external nofollow" >Sleeping</a></li>
  <li><a href="interests/eating.html" rel="external nofollow" >Eating</a></li>
 </ul>
 </page>
 <directory name="interests">
  <page name="shouting" title="Shouting">
   <h1>shouting page</h1>
   <p>....</p>
  </page>
  <page name="sleeping" title="Sleeping">
   <h1>sleeping page</h1>
   <p>...</p>
  </page>
  <page name="eating" title="Eating">
    <h1>Eating page</h1>
    <p>....</p>
  </page>
 </directory>
</website>

有了这个文件，下面应该来看怎么通过这个文件生成网站。

首先我们要解析这个xml文件，python解析xml和在java中一样，有两种方式，SAX和DOM，两种处理方式不同点在于速度和范围，前者讲究的是效率，每次只处理文档的一小部分，快速而能有效的利用内存，后者是相反的处理方式，先把所有的文档载入到内存，然后再进行处理，速度比较慢，也比较消耗内存，唯一的好处就是可以操作整个文档。

在python中使用sax方式处理xml要先引入xml.sax中的parse函数，还有xml.sax.handler中的ContentHandler，后面的这个类是要和parse函数来配合使用的。使用方式如下： parse('xxx.xml',xxxHandler),这里面的xxxHandler要继承上面的ContentHandler，不过只要继承就行，不需要有所作为。然后这个parse函数在处理xml文件的时候，会调用xxxHandler中的startElement函数和endElement函数来一个xml中的标签的开始和结束，中间的过程使用一个名为characters的函数来处理标签内部的所有字符串。

有了上面的这些认识，我们已经知道如何处理xml文件了，然后再来看那个罪恶的源头website.xml文件，分析其结构，只有两个节点：page和directory，很明显page表示一个页面，directory表示一个目录。

所以处理这个xml文件的思路就变的清晰了。读取xml文件的每一个节点，然后判断是page还是directory如果是page则创建html页面，然后把节点中的内容写到文件里。如果遇到directory就创建一个文件夹，然后再处理其内部的page节点（如果存在的话）。
下面来看这部分代码，书中的实现比较复杂，比较灵活。先来看，然后在分析。

from xml.sax.handler import ContentHandler
from xml.sax import parse
import os
class Dispatcher:
    def dispatch(self, prefix, name, attrs=None):
        mname = prefix + name.capitalize()
        dname = 'default' + prefix.capitalize()
        method = getattr(self, mname, None)
        if callable(method): args = ()
        else:
            method = getattr(self, dname, None)
            args = name,
        if prefix == 'start': args += attrs,
        if callable(method): method(*args)
    def startElement(self, name, attrs):
        self.dispatch('start', name, attrs)
    def endElement(self, name):
        self.dispatch('end', name)
class WebsiteConstructor(Dispatcher, ContentHandler):
    passthrough = False
    def __init__(self, directory):
        self.directory = [directory]
        self.ensureDirectory()
    def ensureDirectory(self):
        path = os.path.join(*self.directory)
        print path
        print '----'
        if not os.path.isdir(path): os.makedirs(path)
    def characters(self, chars):
        if self.passthrough: self.out.write(chars)
    def defaultStart(self, name, attrs):
        if self.passthrough:
            self.out.write('<' + name)
            for key, val in attrs.items():
                self.out.write(' %s="%s"' %(key, val))
            self.out.write('>')
    def defaultEnd(self, name):
        if self.passthrough:
            self.out.write('</%s>' % name)
    def startDirectory(self, attrs):
        self.directory.append(attrs['name'])
        self.ensureDirectory()
    def endDirectory(self):
        print 'endDirectory'
        self.directory.pop()
    def startPage(self, attrs):
        print 'startPage'
        filename = os.path.join(*self.directory + [attrs['name']+'.html'])
        self.out = open(filename, 'w')
        self.writeHeader(attrs['title'])
        self.passthrough = True
    def endPage(self):
        print 'endPage'
        self.passthrough = False
        self.writeFooter()
        self.out.close()
    def writeHeader(self, title):
        self.out.write('<html>\n <head>\n  <title>')
        self.out.write(title)
        self.out.write('</title>\n </head>\n <body>\n')
    def writeFooter(self):
        self.out.write('\n </body>\n</html>\n')
parse('website.xml',WebsiteConstructor('public_html'))

看起来这个程序上面分析的复杂了一些，不过伟人毛毛说过，任何复杂的程序都是纸老虎。那我们再来分析一下这个程序。

首先看到这个程序是有两个类，其实完全可以当作一个类，因为有了继承。

然后再来看它多了些什么，除了我们分析出来的startElement和endElement以及characters，多出来了startPage，endPage;startDirectory，endDirectory;defaultStart，defaultEnd;ensureDirectory;writeHeader，writeFooter;和dispatch，这些个函数。除了dispatch，前面的函数都很好理解，每一对函数都是单纯的处理对应的html标签以及xml节点。而dispatch比较复杂，复杂之处在于他是用来动态拼合函数并且进行执行的。

dispatch的处理思路是，首先根据传递的参数（就是操作名称以及节点名称）判断是否存在对应的函数如startPage，如果不存在则执行default+操作名称：如defaultStart。

一个函数一个函数搞清楚之后，就知道整个处理流程是什么样了。首先创建一个public_html的文件，存放整个网站，然后读xml的节点，通过startElement和endElement调用dispatch进行处理。然后就是dispatch怎么调用具体的处理函数了。到此为止，这个项目算是分析完了。

主要掌握的内容一个是python中使用SAX处理XML，另一个就是python中的函数的使用，比如getattr，传参数时的星号……

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

您可能感兴趣的文章:

python基础教程之数字处理(math)模块详解
python基础教程之popen函数操作其它程序的输入和输出示例
python基础教程之类class定义使用方法
python基础教程之基本数据类型和变量声明介绍
python基础教程之lambda表达式使用方法
Python安装使用命令行交互模块pexpect的基础教程
python基础教程之实现石头剪刀布游戏示例
python基础教程项目四之新闻聚合
python基础教程项目二之画幅好画
python基础教程项目五之虚拟茶话会

python基础教程之基本数据类型和变量声明介绍

变量不需要声明 Python的变量不需要声明,你可以直接输入: 复制代码代码如下: >>>a = 10 那么你的内存里就有了一个变量a, 它的值是10,它的类型是integer (整数). 在此之前你不需要做什么特别的声明,而数据类型是Python自动决定的. 复制代码代码如下: >>>print a >>>print type(a) 那么会有如下输出: 复制代码代码如下: 10 <type 'int'> 这里,我们学到一个内置函数t
python基础教程之实现石头剪刀布游戏示例

下面是规则.你和你的对手,在同一时间做出特定的手势,必须是下面一种手势:石头,剪子,布.胜利者从下面的规则中产生,这个规则本身是个悖论.(a) 布包石头.(b)石头砸剪子,(c)剪子剪破布.在你的计算机版本中,用户输入她/他的选项,计算机找一个随机选项,然后由你的程序来决定一个胜利者或者平手.注意:最好的算法是尽量少的使用 if 语句复制代码代码如下: #coding:utf-8 import randomguess_list = ["石头","剪刀",&quo
python基础教程之数字处理(math)模块详解

1.math简介复制代码代码如下: >>> import math>>>dir(math) #这句可查看所有函数名列表>>>help(math) #查看具体定义及函数0原型 2.常用函数复制代码代码如下: ceil(x) 取顶floor(x) 取底fabs(x) 取绝对值factorial (x) 阶乘hypot(x,y) sqrt(x*x+y*y)pow(x,y) x的y次方sqrt(x) 开平方log(x
python基础教程之lambda表达式使用方法

Python中,如果函数体是一个单独的return expression语句,开发者可以选择使用特殊的lambda表达式形式替换该函数: 复制代码代码如下: lambda parameters: expression lambda表达式相当于函数体为单个return语句的普通函数的匿名函数.请注意,lambda语法并没有使用return关键字.开发者可以在任何可以使用函数引用的位置使用lambda表达式.在开发者想要使用一个简单函数作为参数或者返回值时,使用lambda表达式是很方便的.下面是
Python安装使用命令行交互模块pexpect的基础教程

一.安装 1.安装easy_install工具 wget http://peak.telecommunity.com/dist/ez_setup.py python ez_setup.py 安装easy_install工具(这个脚本会自动去官网搜索下载并安装) python ez_setup.py -U setuptools 升级easy_install工具 2.安装pexpect easy_install Pexpect 测试一下: [root@OMS python]# python Pyth
python基础教程之类class定义使用方法

面对对象(oop)中的对象,是一个非常重要的知识点,我们可以把它简单看做是数据以及由存取.操作这些数据的方法所组成的一个集合.我们在学习函数(function)之后,知道了如果重用代码,那为什么还要用类来取代函数呢? 类有这样一些的优点 1) .类对象是多态的:也就是多种形态,这意味着我们可以对不同的类对象使用同样的操作方法,而不需要额外写代码. 2).类的封装:封装之后,可以直接调用类的对象,来操作内部的一些类方法,不需要让使用者看到代码工作的细节. 3).类的继承:类可以从其它类或者元类中继
python基础教程项目四之新闻聚合

<python基础教程>书中的第四个练习,新闻聚合.现在很少见的一类应用,至少我从来没有用过,又叫做Usenet.这个程序的主要功能是用来从指定的来源(这里是Usenet新闻组)收集信息,然后讲这些信息保存到指定的目的文件中(这里使用了两种形式:纯文本和html文件).这个程序的用处有些类似于现在的博客订阅工具或者叫RSS订阅器. 先上代码,然后再来逐一分析: from nntplib import NNTP from time import strftime,time,localtime f
python基础教程之popen函数操作其它程序的输入和输出示例

一.函数介绍 1.1 函数原型: 复制代码代码如下: #include <stdio.h>FILE *popen(const char *command,const char *open_mode); 1.2 说明 popen函数允许一个程序将另一个程序作为新进程启动,并可以传递数据给它或者通过它接收数据.command字符串是要运行的程序名和相应参数(比如:ls或ls -l),openmode必须是 r 或w.如果是r,被调用程序的输出可以被调用它的程序使用:如果是w,调用程序就可以用fw
python基础教程项目五之虚拟茶话会

几乎在学习.使用任何一种编程语言的时候,关于socket的练习从来都不会少,尤其是会写一些局域网的通信的东西.所以书上的这个项目刚好可以练习一下socket编程. 这个练习的整体思路首先有一个聊天的服务器,这个服务器的功能主要是提供客户端socket的连接.存储每个客户端的连接session,处理每个连接发送的消息.解析客户端发送的数据.就这些,至于客户端方面不需要写代码,用系统的telnet工具即可. 我觉得有了上面的分析,剩下的这个程序就没有什么说的了,当然,除了那两个把socket封装的类
python基础教程项目二之画幅好画

这是<python基础教程>中的第二个项目,关于python操作PDF. 涉及到的知识点 1.urllib的使用 2.reportlab库的使用这个例子着实很简单,不过我发现在python里面可以直接在数组［］里面写for循环,真是越用越方便. 下面是代码: from urllib import urlopen from reportlab.graphics.shapes import * from reportlab.graphics.charts.lineplots import Lin

python基础教程项目三之万能的XML

您可能感兴趣的文章:

相关推荐

随机推荐