基于PHP与XML的PDF文档生成技术

摘要

本论文简要介绍了PHP、XML、PDF等技术的原理以及它们的应用情况。力图运用PHP面向对象的特性,构建出一套基于PHP和XML的在线PDF文档生成系统。文中详细探讨了整个系统的组成部分以及各自的实现过程。并在最后给出一个运用这套系统实现的动态创建报表的实例。

Abstract


This article introduced the fundamentls of PHP,XML and PDF and their application situation at present,expecting to build a PHP&XML-based dynamic PDF documents creating system through the PHP's OO features. Furthermore,we discussed in detail on the components of the whole system and their respective realizing methods. Finally,we represented an example of creating reports dynamically using this system.

关键词

PHP      XML       XSLT       DTD      PDF   

 

 

1.       引言

        在信息技术飞速发展的时代,无论政府、企业还是个人,他们对如何通过信息技术提高自身工作效率,节省开支具有浓厚的兴趣。他们急切要找到一种优秀的技术,可以把传统上以纸张为媒介的文件、报表、票单据、手册、申请书等等等等转化为一种可以非常方便的在互联网以及内部网络自动生成、传播、下载、浏览、打印的电子文档。而如今最为热门的“无纸化办公”、“电子商务”等等都将以此为基础。

这种文档格式就Adobe公司的PDF(可移植文档格式),它已是全世界电子版文档分发的公开实用标准 。   任何浏览器只要安装Acrobat reader 5.0 的插件,便可以自由浏览、下载、打印PDF文档。PDF无疑具有其它电子文档格式不可比拟的优越性。

我们知道B/S系统作为当前以及将来最流行的一种软件架构,可以很好的实现各种基于浏览器的Web应用程序,而PHP作为一种优秀的Web编程语言,特别适合开发用于处理用户表单输入,查询数据库等针对浏览器用户的前端应用程序。由于PHP是开放源码的,这使得它的使用比其它同类的Web脚本语言更为广泛,它的功能也在不断的扩充和完善之中。现在最新的PHP版本已经可以很好的支持PDF,XML等。通过系统提供的API,我们能非常快捷的生成PDF文档,而最具魅力的是,我们可以通过PHP,查询数据库或XML数据文件并将结果插入所生成的PDF文档之中,形成各种具有绝佳的浏览和打印效果的报表、单据、手册等。

不难看出,结合PHP、XML、PDF三项技术,构造出一种可以在线动态生成PDF文档的系统是极具现实意义的,其主要表现在:

·文档可以在网络上生成,并通过网络分发。节省大量的人力物力。具有精确美观的打印效果,真正实现了无纸化办公。

·电子商务交易过程中的各种票据、 凭证都可以通过PHP脚本程序在线生成,并转为PDF格式发送给客户。

 ·企业MIS系统中各种面向打印的报表的生成,并可直接通过浏览器获得,无须安装任客户端,使用极为方便。

·以前文件流转是"先打印,后分发",每年花在印刷上的费用是政府、企业沉重的负担。而PDF文档"先散发,后打印",接件人可以在浏览后,再按需要打印。印刷的费用大大减少。而且,很有利于环保事业。

2.       课题简介

 

        在某些软件项目的开发过程中,我们遇到一个很关键的问题就是大量面向打印的报表、单据的生成。我们知道,HTML适合浏览,但不适合格式规范的打印。因此必需找到一种可以由PHP动态生成,且具有良好的打印效果的文档格式。而这正是我研究这个课题的最直接的需求。 明白了这一点,我们就很自然的想到了PDF以及PHP的PDF支持库PDFLib。通过PDFLib提供的一套API,我们可以很容易在PHP脚本动态创建PDF文档。但是这只是一套非常基本的函数,只能进行一些简单的输出,如线条、文本、矩形框等,而且每输出一个对象之前,都要为其指定坐标。如果直接使用来这套函数来做一些实际的应用,比如复杂的报表的生成,其困难程度是难以想象的。我们不可能为创建这样一个报表,而事先算好各个元素的坐标,并把单元格用矩形框一个一个的画出来。

所以,我们第一步要做的就是利用PHP面向对象的编程方法将这套基本的API进行封装,以产生多个实用的具有独立功能的对象模块(如page对象、table对象、text对象等)。应该说,这一块是此项目最基本,也是最重要的部分。我参考并部分采用

了国外一些类似的开放源码的程序,在此基础上开发出了一套功能较为强大的类库。大大简化了PDF文档的生成,特别是其中的table对象,可以象HTML中的TABLE标记一样任意嵌套,轻松快捷的实现各种复杂的表格的绘制(这对动态生成报表是非常有用的)。

生成PDF的问题解决以后,我们面临了新的问题,举个例子来说,数据库查询页面如何将包含大量信息的结果集以及其它信息传给PDF生成页面? 最初我们想到的方法是通过文本文件传递,即在数据库查询页面将数据写到一个文本文件当中,并对其

中不同类别的数据定义一套区分的标记,PDF生成页面读取此文件,将内容插入到PDF中。 但是这样做,并不可靠。因为在这个文本文件中,我们采用特定的字符(或空格)来分离数据,如果恰好有用数据中也包含同样的字符或空格呢?可见,以这种方式传递数据是有隐患的。其实上面我们提到在文本文件中用不同的标记区分不同类别的数据。而这正是XML技术的思想。何不一步到为采用XML来作为数据传递的手段呢? 况且PHP对XML和XSLT具有很好的支持,通过expat解析器,我们可以任意提取XML文档中的数据,也可以通过PHP的XSLT引擎Sablotron对XML文档进行任意转换。

首先由“XML生成器”将数据(来自数据库或用户输入等)放到一个符合事先定义好的DTD的XML文档中,此文档对其中的数据内容进行描述,不包含任何格式信息。 然后由“XML转换器”将这个XML文档转换成包含显示样式信息的另一个XML文档。 最后由“PDF生成器”读取这个文档,根据其中的内容和显示样式生成相应的PDF文档。在这一个过程中,我要做的是再次运用 PHP的面向对象特性,构建出可重用的类:XMLWriter(生成XML文件)、XMLParser(解析XML文件)以及XMLTransformer(对XSLT函数的封装)。

系统构建成功后,就是具体的应用了。主要是进销存系统中各种报表、单据的动态生成。

3.       可行性分析

 

开发一个功能强大、适应性好的PDF文档在线生成系统,必然需要弹性大、灵活性

高的开发模型。我们提出的基于PHP和XML的PDF文档在线生成技术,为各种面向打印的应用,如报表、单票据、手册等提供了新的思路。我们用PHP来查询数据库,处理用户输入,并在此基础上生成原始的XML文档;然后通过XSLT将该XML文档加上显示层信息,生成另外一个新的XML文档。最后利用“PDF生成器”将这个新的XML文档转化为相应格式的PDF文档。对于最初生成的XML文档,我可以做二度利用,因为该文档包含了所有的有用信息,可以非常容易的被其它应用程序处理。如果我们想改变信息在PDF文档显示的样式,可以非常容易的实现。只要专门人员修改相应的XSL样式单文件即可,不需要对其它环节做任何修改,具有非常好的灵活性。除此之外,PHP、XML、PDF三者都具有极好的可移植性,可以跨平台使用。 对该系统的研究并非凭空想象的,它建立在直接的需求之上的。到目前为止,这套技术已经投入实际应用,收到了极为满意的效果。实践证明,运用PHP和XML开发出的一套在线PDF文档生成系统具有广阔和非常实际的应用前景。

4 总体设计

本课题主要完成四个基础模块的设计及编程实现。这四个类模块分别为PDFCreator、XMLWriter、XMLTransfomer以及XMLParser。它们分布于系统的各个环节之中,具有各自独立的功能和作用,是系统的核心组成部分(见下图)。

系统构成图

从图中可见,四者在本系统中又是紧密联系的有机整体。XMLWriter作为系统的输

入接口,负责生成原始的XML数据文件。该文件的格式规范(DTD)由我们事先编写好,而XMLWriter按照该DTD生成相应的XML文档。这个XML文档接着交由XMLTransfomer处理,XMLTransfomer其实是对PHP提供的XSLT函数的封装,它一般接受两个参数,其中之一是需要转换的XML文档,另一个是相应的XSL样式单文件。XMLTransfomer正是根据该样式单文件将原始的XML文档转化为符合这个样式单样式的另一个XML文档(包含信息在PDF文档中放置的格式)。然后,这个新的XML文件继续交由“PDF生成器”进行处理。而这个过程有分为两个部分:首先,必需对这个XML文档进行解析,提取其中所需的数据,这一步有XMLParser来完成,XMLParser对此XML文档进行解析,将其转化为一棵对象树,XML文档中每一个节点都是一个对象,每个对象都有各自的属性(即相应节点的所有信息)。这样一来,我们可以非常方便的访问这个XML文档的任意内容。之后,要做的就是将该XML文档中读出的信息(包括格式信息和内容信息)用PDFCreator转化为最终的PDF文档的输出。

5.应用示例

在这里,我们运用上面的这套系统创建一个面向打印的报表——“库存历史事

表”。这个报表包含的信息有:报表名称(协和库存历史事务表)、单位、建表日期等,另外就是从数据库中提取的数据了,品名(LLPROD)、批号(LLOC)、等级(LCLS)、仓库(LWHS)、库位(LLOCT)、数量(LNUM)、日期(LDATE)等。假设我们已经用XMLWriter生成了下面的原始XML文档(report.xml):

<?xml version="1.0" encoding="gb2312"?>

<report>

<report_param>

<title>库存历史事务表</title>

<unit>平方米</unit>

<date>20020611</date>

</report_param>

<report_records>

<record>

<llprod>W2308</llprod>

<lloc>1234</lloc>

<lcls>a</lcls>

<lwhs>01</lwhs>

<lloct>0001</lloct>

<lnum>200</lnum>

<ldate>20020609</ldate>

</record>

<record>

<llprod>W2307</llprod>

<lloc>4321</lloc>

<lcls>a</lcls>

<lwhs>01</lwhs>

<lloct>0001</lloct>

<lnum>100</lnum>

<ldate>20020609</ldate>

</record>

</report_records>

</report>

该文档包含了这张报表的所有有用信息,我们需要用特定的XSL样式单为其加上格式信息。XMLTransformer执行转换的代码如下:

<?php

$xslt = new XMLTransformer ("report.xsl", "report.xml");

$xslt->apply("pdfreport.xml");

?>

转换后生成的新的XML文档如下:

<?xml version="1.0" encoding="gb2312"?>

<pdfreport pagetype="a4" pagesize="25" top="20" bottom="20" left="20" right="20">

<head>

<line top="5" bottom="5" size="50%" linetype="single" show="false"/>

<text fontsize="30" fontlaguage="cn" align="center">库存历史事务表</text>

<line top="5" bottom="30" size="80%" linetype="double" show="true"/>

<text fontsize="12" fontlaguage="cn" align="left">单位:平方米</text>

</head>

<body>

<table>

<tr><th>品名</th><th>批号</th><th>等级</th><th>仓库</th><th>库位</th><th>数量</th><th>日期</th></tr>

<tr><td>W2308</td><td>1234</td><td>a</td><td>01</td><td>0001</td><td>200</td><td>20020609</td></tr>

<tr><td>W2307</td><td>4321</td><td>a</td><td>01</td><td>0001</td><td>100</td><td>20020609</td></tr>

</table>

</body>

<foot>

<line top="5" bottom="5" size="50%" linetype="single" show="false"/>

<text fontsize="12" fontlaguage="cn" align="center">建表日期:20020611</text>

</foot>

</pdfreport>

用XMLParser对该XML文档解析后,得到一个包含所有信息的对象树,我们可以非常方便的访问其中的内容。生成的PDF报表如下图:

程序片断如下:

<?   include( "../include/pc_init.inc" );?>

<?   include( "xmlparser.inc" );

<?

$xmlobject=getRootNode("report.xml");

// get the attrs of root element

$pageSet=$xmlobject->attrs;

// get the report-head

$head=$xmlobject->nodes[0];

// code ignored...

?>

<?

function draw_line(&$parent,$line){

$line = &pc_create_object( $parent, "line" );

$line->pc_set_linestyle( $line->attrs["LINETYPE"]);

$line->pc_set_width( $line->attrs["SIZE"] );

$line->pc_set_alignment( "center" );

if($line->attrs["SHOW"]==false){

$line->pc_set_linecolor( "white" );

}

$line->pc_set_margin( array( "top" => $line->attrs["TOP"], "bottom" => $line->attrs["BOTTOM"], "left" => 0, "right" => 0 ) );

}

function draw_text(&$parent,$text){

// code ignored...

}

function draw_table(&$parent,$table){

// code ignored...

}

function addhead(&$parent,$head){

for($i=0;$i< $head->n;$i++){

switch ($head->nodes[$i]->name){

case "LINE":draw_line($parent,$head->nodes[$i]);break;

case "TEXT":draw_text($parent,$head->nodes[$i]);break;

}

}

}

//..

?>

<?

// Create a PDF Document

$PDF = &pc_create_pdf( array( "Author" => "cyman", "Title" => "a report example" ) );

// Create an A4-format page

$Page1 = &pc_create_page( $PDF, $pageSet["PAGETYPE"]);

addhead($Page1,$head);

$PDF->pc_draw();

?>

6.总结

在几个月来的毕业设计过程中,虽然忙碌,却非常充实。通过对一个实际的课题的分析,研究,论证,实现。感觉收获颇多。目前,这套系统已投入使用,收到了非常满意的效果,可以很容易的做出美观实用的报表、单据等。但是,由于时间上的仓促以及自己水平的有限,这套系统仍有许多不足之处。其中最遗憾就是,没有能定义出一套对各种文档(包括报表、单据、手册等等)都通用的XML标记,并编制通用的程序将这个XML文档转化为PDF,就如同浏览器解析HTML一样。这样就不必为每一种文档都定义各自的XML标记并编写相对应的转换程序,可以大大提高工作效率。

虽然毕业设计已经结束,但是我将会今后的日子里继续这个课题的研究。

(0)

相关推荐

  • PHP实现HTML生成PDF文件的方法

    本文实例讲述了在linux中利用HTML2FPDF与wkhtmltoimage把网页html直接生成pdf格式的文件方法,分享给大家供大家参考.具体实现方法如下: 找到一款在FPDF和HTML2FPDF源码基础上开发的一套开源程序,作者很给力.基本解决了中文(以及日语.韩语及东南亚和全球语言)乱码的问题,在Windows/Linux开发环境下测试可用,不需要安装别的组件支持,是没有VPS和独立服务器的网站开发者的福音. 不多说,源码名称是MPDF,官方地址是:http://www.mpdf1.c

  • PHP在网页中动态生成PDF文件详细教程

    本文详细介绍使用 PHP 动态构建 PDF 文件的整个过程.使用免费 PDF 库 (FPDF) 或 PDFLib-Lite 等开源工具进行实验,并使用 PHP 代码控制 PDF 内容格式. 有时您需要准确控制要打印的页面的呈现方式.在这种情况下,HTML 就不再是最佳选择了.PDF 文件使您能够完全控制页面的呈现方式,以及文本.图形和图像在页面上的呈现方式.遗憾的是,用来构建 PDF 文件的 API 不属于 PHP 工具包的标准部件.现在您需要提供一点帮助. 当您在网络上搜索,寻找对 PHP 的

  • 用PHP生成PDF文件 with FPDF

    What is FPDF?FPDF is a PHP class which allows to generate PDF files with pure PHP, that is to say without using the PDFlib library. The advantage is that PDFlib requires a fee for a commercial usage. F from FPDF stands for Free: you may use it for an

  • PHP使用imagick读取PDF生成png缩略图的两种方法

    一.ImageMagick是什么ImageMagick是一套功能强大.稳定而且免费的工具集和开发包,可以用来读.写和处理超过185种基本格式的图片文件,包括流行的TIFF, JPEG, GIF, PNG, PDF以及PhotoCD等格式.利用ImageMagick,你可以根据web应用程序的需要动态生成图片, 还可以对一个(或一组)图片进行改变大小.旋转.锐化.减色或增加特效等操作,并将操作的结果以相同格式或其它格式保存.二.php_imagick什么一个可以供PHP调用ImageMagick功

  • 使用PHP把HTML生成PDF文件的几个开源项目介绍

    利用PHP编码生成PDF文件是一个非常耗时的工作.在早期,开发者使用PHP并借助FPDF来生成PDF文件.但是如今,已经有很多函数库可以使用了,并且能够从你提供的HTML文件生成PDF文档.这让原先耗时的工作变得非常简单了. FPDF是很早就被使用的,其特点如下: FPDF FPDF是一个允许使用纯PHP生成PDF文档的PHP类,换句话说,没有使用PDFlib 函数库.FPDF中的F代表免费和自由:你可以在任何情况下使用,并且支持自定义,来满足你特定的需求 特点: 1.可以选择单元.页面格式和边

  • PHP中使用Imagick读取pdf并生成png缩略图实例

    pdf生成png首页缩略图 (服务器需要支持Imagick)  复制代码 代码如下: /** * PDF2PNG    * @param $pdf  待处理的PDF文件 * @param $path 待保存的图片路径 * @param $page 待导出的页面 -1为全部 0为第一页 1为第二页 * @return      保存好的图片路径和文件名 */   function pdf2png($pdf,$path,$page=0)  {       if(!is_dir($path))    

  • 使用PHP生成PDF方法详解

    利用PHP编码生成PDF文件是一个非常耗时的工作.在早期,开发者使用PHP并借助FPDF来生成PDF文件.但是如今,已经有很多函数库可以使用了,并且能够从你提供的HTML文件生成PDF文档.这让原先耗时的工作变得非常简单了. FPDF FPDF是一个允许使用纯PHP生成PDF文档的PHP类,换句话说,没有使用PDFlib 函数库.FPDF中的F代表免费和自由:你可以在任何情况下使用,并且支持自定义,来满足你特定的需求,特点: 1.可以选择单元.页面格式和边距 2.可以管理页眉和页脚 3.自动分页

  • PHP中使用TCPDF生成PDF文档实例

    实际工作中,我们要使用PHP动态的创建PDF文档,目前有许多开源的PHP创建PDF的类库,今天我给大家来介绍一款优秀的PDF库,它就是TCPDF,TCPDF是一个用于快速生成PDF文件的PHP5函数包.TCPDF基于FPDF进行扩展和改进,增强了实用功能. 特性 TCPDF具有以下特性: 1.支持页面页脚: 2.支持HTML标签代码: 3.支持jpg/png/gif/svg图形图像: 4.支持表格: 5.支持中文字符:(有些PDF类不支持中文或者处理中文相当麻烦) 6.自动分页,自动页码,等等.

  • 用PHP编写PDF文档生成器

    PHP一个最大的优点就是它对新技术的支持非常容易,这种语言的可扩展性使得开发人员能够很方便地添加新的模块,而且遍布世界的技术团体的支持和众多扩展模块的支持使得PHP已经成为功能最齐全的Web编程语言之  一.目前可得到的扩展模块已经能够使开发人员执行IMAP和POP3操作,可以动态产生图象和Shockwave Flash动画,进行信用卡验证,敏感数据的加密解密,还能够解析XML格式的数据.但这还不是全部,现在,又有一个新的模块可以与PHP进行绑定了,那就是PDFLib扩展模块,它能够让开发人员动

  • 基于PHP与XML的PDF文档生成技术

    摘要 本论文简要介绍了PHP.XML.PDF等技术的原理以及它们的应用情况.力图运用PHP面向对象的特性,构建出一套基于PHP和XML的在线PDF文档生成系统.文中详细探讨了整个系统的组成部分以及各自的实现过程.并在最后给出一个运用这套系统实现的动态创建报表的实例. AbstractThis article introduced the fundamentls of PHP,XML and PDF and their application situation at present,expect

  • C# 对PDF文档加密、解密(基于Spire.Cloud.SDK for .NET)

    Spire.Cloud.SDK for .NET提供了接口PdfSecurityApi可用于加密.解密PDF文档.本文将通过C#代码演示具体加密及解密方法. 使用工具: Spire.Cloud.SDK for .NET Visual Studio 必要步骤: 步骤一: dll文件获取及导入.在程序中通过Nuget搜索下载,直接导入所有dll. 导入效果如下如所示: 步骤二: App ID及Key获取.在"我的应用"板块中创建应用以获得App ID及App Key. 步骤三: 源文档上传

  • 基于Python实现网页文章转PDF文档

    我们有时候看到一篇好的文章,想去保存下来,传统方式一般是收藏书签.复制粘贴到文档或者直接复制链接保存,但这样一次两次还好,数量多了,比较麻烦不说,还可能不好找~ 这个时候,Python的作用就来了,直接抓下来导出为PDF,直接把整个网站的内容都导下来都行~ 话不多说,我们直接上代码! import requests import parsel import pdfkit import os import re html_str = """ <!doctype html&

  • db2v8的pdf文档资料

    正在看的db2教程是:db2v8的pdf文档资料.db2v8的pdf文档资料  下载地址:  ftp://ftp.software.ibm.com/ps/produ...vr8/pdf/letter/ 文档资料说明:  http://www-3.ibm.com/cgi-bin/db2www...ubs.d2w/en_main 英文文档名称对应列表:  db2a1e80.pdf Application Development Guide:Programming Client Application

  • 利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用freemarker这样的模板引擎这样的方式.php中也有一些相应的方法,但在python中将web/html内容生成world文档的方法是很少的.其中最不好解决的就是如何将使用js代码异步获取填充的数据,图片导出到word文档中. 1. unoconv 功能: 1.支持将本地html文档转换为docx

  • 详解Java生成PDF文档方法

    最近项目需要实现PDF下载的功能,由于没有这方面的经验,从网上花了很长时间才找到相关的资料.整理之后,发现有如下几个框架可以实现这个功能. 1. 开源框架支持 iText,生成PDF文档,还支持将XML.Html文件转化为PDF文件: Apache PDFBox,生成.合并PDF文档: docx4j,生成docx.pptx.xlsx文档,支持转换为PDF格式. 比较: iText开源协议为AGPL,而其他两个框架协议均为Apache License v2.0. 使用PDFBox生成PDF就像画图

  • Java 生成PDF文档的示例代码

    最近项目需要实现PDF下载的功能,由于没有这方面的经验,从网上花了很长时间查找了相关的资料.整理之后,发现有几个框架可以实现这个功能. 1. 开源框架支持 iText,生成PDF文档,还支持将XML.Html文件转化为PDF文件: Apache PDFBox,生成.合并PDF文档: docx4j,生成docx文档,支持转换为PDF格式. 2. 实现方案 比较了一番后,采用了FreeMarker+docx4j+Apache PDFBox的方案: maven依赖 <!-- pdfbox --> &

  • Python利用PyPDF2快速拆分PDF文档

    目录 安装PyPDF2模块 创建文件,准备PDF文档 万事俱备,准备开拆 文档的拆分思路 python拆分计算公式: 具体怎么拆? 完整拆分程序: 列表拆分法实现拆分PDF 写在最后 "人生苦短,快学Python",因为这句口号,我也加入了学习Python的浩浩大军,但由于Python真的是可以做的事情太多了,一时迷了眼,不知道自己应该去专攻哪个方向. 经过多方向试探,我还是选择了广而不深的web开发,Python的web开发自然离不开大名鼎鼎的Django,有一次突发奇想,下载了Dj

随机推荐