Java实现Word/Pdf/TXT转html的实例代码

2025-02-27 16:26:55

引言:

最近公司在做一个教育培训学习及在线考试的项目,本人主要从事网络课程模块,主要做课程分类,课程,课件的创建及在线学习和统计的功能,因为课件涉及到多种类型,像视频,音频,图文,外部链接及文档类型.其中就涉及到一个问题,就是文档型课件课程在网页上的展示和学习问题,因为要在线统计学习的课程,学习的人员,学习的时长,所以不能像传统做法将文档下载到本地学习,那样就不受系统控制了,所以最终的方案是,在上传文档型课件的时候,将其文件对应的转换成HTML文件,以便在网页上能够浏览学习

下边主要针对word,pdf和txt文本文件进行转换

一:Java实现将word转换为html

1:引入依赖

 <dependency>
  <groupId>fr.opensagres.xdocreport</groupId>
  <artifactId>fr.opensagres.xdocreport.document</artifactId>
  <version>1.0.5</version>
 </dependency>
 <dependency>
  <groupId>fr.opensagres.xdocreport</groupId>
  <artifactId>org.apache.poi.xwpf.converter.xhtml</artifactId>
  <version>1.0.5</version>
 </dependency>
  <dependency>
  <groupId>org.apache.poi</groupId>
  <artifactId>poi</artifactId>
  <version>3.12</version>
 </dependency>
 <dependency>
  <groupId>org.apache.poi</groupId>
  <artifactId>poi-scratchpad</artifactId>
  <version>3.12</version>
 </dependency>

2:代码demo

package com.svse.controller;

  import javax.xml.parsers.DocumentBuilderFactory;
  import javax.xml.parsers.ParserConfigurationException;
  import javax.xml.transform.OutputKeys;
  import javax.xml.transform.Transformer;
  import javax.xml.transform.TransformerException;
  import javax.xml.transform.TransformerFactory;
  import javax.xml.transform.dom.DOMSource;
 import javax.xml.transform.stream.StreamResult;

 import org.apache.poi.hwpf.HWPFDocument;
 import org.apache.poi.hwpf.converter.PicturesManager;
 import org.apache.poi.hwpf.converter.WordToHtmlConverter;
 import org.apache.poi.hwpf.usermodel.PictureType;
 import org.apache.poi.xwpf.converter.core.BasicURIResolver;
 import org.apache.poi.xwpf.converter.core.FileImageExtractor;
 import org.apache.poi.xwpf.converter.core.FileURIResolver;
 import org.apache.poi.xwpf.converter.core.IURIResolver;
 import org.apache.poi.xwpf.converter.core.IXWPFConverter;
 import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter;
 import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions;
 import org.apache.poi.xwpf.usermodel.XWPFDocument;
 /**
 * word 转换成html
 */
public class TestWordToHtml {

  public static final String STORAGEPATH="C://works//files//";
   public static final String IP="192.168.30.222";
   public static final String PORT="8010";
  public static void main(String[] args) throws IOException, TransformerException, ParserConfigurationException {
   TestWordToHtml wt=new TestWordToHtml();
    //wt.Word2003ToHtml("甲骨文考证.doc");
    wt.Word2007ToHtml("甲骨文考证.docx");

  }

   /**
   * 2003版本word转换成html
   * @throws IOException
   * @throws TransformerException
   * @throws ParserConfigurationException
    */
  public void Word2003ToHtml(String fileName) throws IOException, TransformerException, ParserConfigurationException {

     final String imagepath = STORAGEPATH+"fileImage/";//解析时候如果doc文件中有图片 图片会保存在此路径
    final String strRanString=getRandomNum();
    String filepath =STORAGEPATH;
    String htmlName =fileName.substring(0, fileName.indexOf("."))+ "2003.html";
    final String file = filepath + fileName;
    InputStream input = new FileInputStream(new File(file));
    HWPFDocument wordDocument = new HWPFDocument(input);
    WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument());
    //设置图片存放的位置
    wordToHtmlConverter.setPicturesManager(new PicturesManager() {
       public String savePicture(byte[] content, PictureType pictureType, String suggestedName, float widthInches, float heightInches) {
        File imgPath = new File(imagepath);
        if(!imgPath.exists()){//图片目录不存在则创建
          imgPath.mkdirs();
        }

        File file = new File(imagepath +strRanString+suggestedName);
        try {
           OutputStream os = new FileOutputStream(file);
           os.write(content);
           os.close();
        } catch (FileNotFoundException e) {
           e.printStackTrace();
         } catch (IOException e) {
           e.printStackTrace();
        }

        return "http://"+IP+":"+PORT+"//uploadFile/fileImage/"+strRanString+suggestedName;
       // return imagepath +strRanString+suggestedName;
      }
    });

     //解析word文档
    wordToHtmlConverter.processDocument(wordDocument);
     Document htmlDocument = wordToHtmlConverter.getDocument();

     File htmlFile = new File(filepath +strRanString+htmlName);
    OutputStream outStream = new FileOutputStream(htmlFile);

     DOMSource domSource = new DOMSource(htmlDocument);
    StreamResult streamResult = new StreamResult(outStream);

    TransformerFactory factory = TransformerFactory.newInstance();
     Transformer serializer = factory.newTransformer();
    serializer.setOutputProperty(OutputKeys.ENCODING, "utf-8");
    serializer.setOutputProperty(OutputKeys.INDENT, "yes");
    serializer.setOutputProperty(OutputKeys.METHOD, "html");

    serializer.transform(domSource, streamResult);
     outStream.close();

    System.out.println("生成html文件路径:"+ "http://"+IP+":"+PORT+"//uploadFile/"+strRanString+htmlName);
   }
   /**
   * 2007版本word转换成html
   * @throws IOException
   */
   public void Word2007ToHtml(String fileName) throws IOException {
    final String strRanString=getRandomNum();
     String filepath = STORAGEPATH+strRanString;
     String htmlName =fileName.substring(0, fileName.indexOf("."))+ "2007.html";
     File f = new File(STORAGEPATH+fileName);
     if (!f.exists()) {
       System.out.println("Sorry File does not Exists!");
     } else {
       if (f.getName().endsWith(".docx") || f.getName().endsWith(".DOCX")) {
         try {
           // 1) 加载word文档生成 XWPFDocument对象
           InputStream in = new FileInputStream(f);
           XWPFDocument document = new XWPFDocument(in);
           // 2) 解析 XHTML配置 (这里设置IURIResolver来设置图片存放的目录)
           File imageFolderFile = new File(filepath);
           XHTMLOptions options = XHTMLOptions.create().URIResolver(new FileURIResolver(imageFolderFile));
           options.setExtractor(new FileImageExtractor(imageFolderFile));
           options.URIResolver(new IURIResolver() {
             public String resolve(String uri) {
               //http://192.168.30.222:8010//uploadFile/....
               return "http://"+IP+":"+PORT+"//uploadFile/"+strRanString +"/"+ uri;
             }
           });
           options.setIgnoreStylesIfUnused(false);
           options.setFragment(true);
           // 3) 将 XWPFDocument转换成XHTML
           OutputStream out = new FileOutputStream(new File(filepath + htmlName));
           IXWPFConverter<XHTMLOptions> converter = XHTMLConverter.getInstance();
           converter.convert(document,out, options);
           //XHTMLConverter.getInstance().convert(document, out, options);
           System.out.println("html路径:"+"http://"+IP+":"+PORT+"//uploadFile/"+strRanString+htmlName);
         } catch (Exception e) {
           e.printStackTrace();
         }
       } else {
         System.out.println("Enter only MS Office 2007+ files");
       }
     }
   }
   /**
   *功能说明:生成时间戳
   *创建人:zsq
   *创建时间:2019年12月7日 下午2:37:09
   *
   */
   public static String getRandomNum(){
     Date dt = new Date();
     SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMddHHmmss");
     String str=sdf.format(dt);
     return str;
   }
  }

二:Java实现将Pdf转换为html

1: 引入依赖

 <dependency>
       <groupId>net.sf.cssbox</groupId>
       <artifactId>pdf2dom</artifactId>
       <version>1.7</version>
     </dependency>
     <dependency>
       <groupId>org.apache.pdfbox</groupId>
       <artifactId>pdfbox</artifactId>
       <version>2.0.12</version>
     </dependency>
     <dependency>
       <groupId>org.apache.pdfbox</groupId>
       <artifactId>pdfbox-tools</artifactId>
       <version>2.0.12</version>
 </dependency>

2:代码Demo

 public class PdfToHtml {
  /*
   pdf转换html
   */
   public void pdfToHtmlTest(String inPdfPath,String outputHtmlPath) {
     // String outputPath = "C:\\works\\files\\ZSQ保密知识测试题库.html";
       //try() 写在()里面会自动关闭流
     try{
       BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File(outputHtmlPath)),"utf-8"));
       //加载PDF文档
       //PDDocument document = PDDocument.load(bytes);
       PDDocument document = PDDocument.load(new File(inPdfPath));
       PDFDomTree pdfDomTree = new PDFDomTree();
       pdfDomTree.writeText(document,out);
     } catch (Exception e) {
       e.printStackTrace();
     }
   }
   public static void main(String[] args) throws IOException {
     PdfToHtml ph=new PdfToHtml();
     String pdfPath="C:\\works\\files\\武研中心行政考勤制度.pdf";
     String outputPath="C:\\works\\files\\武研中心行政考勤制度.html";
     ph.pdfToHtmlTest(pdfPath,outputPath);
  }
 }

三:Java实现将TXT转换为html

 /*
    * txt文档转html
     filePath:txt原文件路径
     htmlPosition:转化后生成的html路径
   */
   public static void txtToHtml(String filePath, String htmlPosition) {
     try {
       //String encoding = "GBK";
       File file = new File(filePath);
       if (file.isFile() && file.exists()) { // 判断文件是否存在
         InputStreamReader read = new InputStreamReader(new FileInputStream(file), "GBK");
         // 考虑到编码格式
         BufferedReader bufferedReader = new BufferedReader(read);
         // 写文件
         FileOutputStream fos = new FileOutputStream(new File(htmlPosition));
         OutputStreamWriter osw = new OutputStreamWriter(fos, "GBK");
         BufferedWriter bw = new BufferedWriter(osw);
         String lineTxt = null;
         while ((lineTxt = bufferedReader.readLine()) != null) {
           bw.write("  "+lineTxt + "</br>");
         }
         bw.close();
         osw.close();
         fos.close();
         read.close();
       } else {
         System.out.println("找不到指定的文件");
       }
     } catch (Exception e) {
       System.out.println("读取文件内容出错");
       e.printStackTrace();
     }
   }

总结

到此这篇关于Java实现Word/Pdf/TXT转html的实例代码的文章就介绍到这了,更多相关java word pdf txt 转html内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

java实现word文件转html文件

最近在项目开发中用户提出要在电脑上没有装office时在浏览器中打开word文件,最后确定的逻辑:用户选择想要查看的文件,页面js判断文件是否为word.不是执行下载,是后端根据word文件后缀访问对应转换方法.文件已存在对应html文件直接返回html文件地址,不存在先生成对应html文件再返回地址.js直接通过open()打开新的页签,展示word文件内容.新人一枚,如果代码中存在错误或有更好的实现万望指正! 相关jar包代码 import java.io.ByteArrayOutputS
java使用POI实现html和word相互转换

项目后端使用了springboot,maven,前端使用了ckeditor富文本编辑器.目前从html转换的word为doc格式,而图片处理支持的是docx格式,所以需要手动把doc另存为docx,然后才可以进行图片替换. 一.添加maven依赖主要使用了以下和poi相关的依赖,为了便于获取html的图片元素,还使用了jsoup: <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi&
Java实现将word转换为html的方法示例【doc与docx格式】

本文实例讲述了Java实现将word转换为html的方法.分享给大家供大家参考,具体如下: public static void main(String[] args) throws Exception { String filePath = "C:/Users/Administrator/Desktop/92个诊疗方案及临床路径/"; File file = new File(filePath); File[] files = file.listFiles(); String nam
java实现在线预览--poi实现word、excel、ppt转html的方法

java实现在线预览 - -之poi实现word.excel.ppt转html,具体内容如下所示: ###简介 java实现在线预览功能是一个大家在工作中也许会遇到的需求,如果公司有钱,直接使用付费的第三方软件或者云在线预览服务就可以了,例如永中office.office web 365(http://www.officeweb365.com/)他们都有云在线预览服务,就是要钱0.0 如果想要免费的,可以用openoffice,还需要借助其他的工具(例如swfTools.FlexPaper等)才
Java实现Word/Pdf/TXT转html的实例代码

引言: 最近公司在做一个教育培训学习及在线考试的项目,本人主要从事网络课程模块,主要做课程分类,课程,课件的创建及在线学习和统计的功能,因为课件涉及到多种类型,像视频,音频,图文,外部链接及文档类型.其中就涉及到一个问题,就是文档型课件课程在网页上的展示和学习问题,因为要在线统计学习的课程,学习的人员,学习的时长,所以不能像传统做法将文档下载到本地学习,那样就不受系统控制了,所以最终的方案是,在上传文档型课件的时候,将其文件对应的转换成HTML文件,以便在网页上能够浏览学习下边主要针对word
Java实现Word/Pdf/TXT转html的示例

引言: 最近公司在做一个教育培训学习及在线考试的项目,本人主要从事网络课程模块,主要做课程分类,课程,课件的创建及在线学习和统计的功能,因为课件涉及到多种类型,像视频,音频,图文,外部链接及文档类型.其中就涉及到一个问题,就是文档型课件课程在网页上的展示和学习问题,因为要在线统计学习的课程,学习的人员,学习的时长,所以不能像传统做法将文档下载到本地学习,那样就不受系统控制了,所以最终的方案是,在上传文档型课件的时候,将其文件对应的转换成HTML文件,以便在网页上能够浏览学习下边主要针对word
Java实现Word/Excel/TXT转PDF的方法

引言: 前段时间公司做的教育系统,系统需要实时记录用户学习课程的情况和时间,所以对一些除视频课程之外,对一些文本文档型课件同样如此,初次的方案是讲office相关类型的文件进行转换Html文件,然后展示对应的html文件,PC端差不多没问题了,但是个别文件再转换html之后,样式出现了错乱,即时做了编码转换处理,但是还是有个别乱码,最后改变方案,最后统一将文件转为pdf,然后通过流的方式在前端展示,其中包括Word Excel PPT TXT PDF等文件,代码如下: 备注:本来是可以直接展示p
Java 添加Word目录的2种方法示例代码详解

目录是一种能够快速.有效地帮助读者了解文档或书籍主要内容的方式.在Word中,插入目录首先需要设置相应段落的大纲级别,根据大纲级别来生成目录表.本文中生成目录分2种情况来进行: 1.文档没有设置大纲级别,生成目录前需要手动设置 2.文档已设置大纲级别,通过域代码生成目录使用工具: •Free Spire.Doc for Java 2.0.0 (免费版) •IntelliJ IDEA 工具获取途径1:通过官网下载jar文件包,解压并导入jar文件到IDEA程序. 工具获取途径2:通过Maven仓
java使用RandomAccessFile类基于指针读写文件实例代码

java API中提供了一个基于指针操作实现对文件随机访问操作的类,该类就是RandomAccessFile类,该类不同于其他很多基于流方式读写文件的类.它直接继承自Object. public class RandomAccessFile extends Objectimplements DataOutput, DataInput, Closeable{...} 1.使用该类时可以指定对要操作文件的读写模式. 第一种模式是只读模式,第二种模式是读写模式.在创建该类实例时指定. @Test pu
java 对文件夹目录进行深度遍历实例代码

java 对文件夹目录进行深度遍历实例代码 1.题目对指定目录进行所有内容的列出(包含子目录中的内容),也可以理解为对目录进行深度遍历. 2.解题思想从电脑中获取文件目录,建立函数对其遍历,在这个函数中需要对该目录中的每个文件进行判断,如果文件还是目录,则调用函数本身继续对其进行遍历,如果文件不是目录,则直接输出文件名.为了加强显示的效果,我们还可以建立一个getSpace函数,对其进行缩进. 需要注意的是,不要直接遍历C盘的内容,其目录层次太深,含有太多的系统级文件,容易返回为空,导致空指
Java发送带html标签内容的邮件实例代码

如下所示: package test; import javax.mail.internet.InternetAddress; import javax.mail.internet.MimeMessage; import javax.mail.internet.MimeUtility; import javax.mail.Session; import javax.mail.MessagingException; import javax.mail.Transport; public class
java 使用memcached以及spring 配置memcached完整实例代码

Memcached是一个高性能的分布式内存对象缓存系统,本文介绍了java 使用memcached以及spring 配置memcached完整实例代码,分享给大家本文涉及以下内容: 1,要使用的jar包 2,java 使用memcached 3,spring 配置memcached 导入jar java_memcached-release_2.6.6.jar commons-pool-1.5.6.jar slf4j-api-1.6.1.jar slf4j-simple-1.6.1.jar 示例
java 实现截取字符串并按字节分别输出实例代码

java 实现截取字符串并按字节分别输出实例代码前言: 请编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串.但是要保证汉字不被截半个,如"我ABC"4,应该截为"我AB",输入"我ABC汉DEF"6,应该输出"我ABC",而不是"我ABC"+"汉"字的半个. 2.解析思想本题容易产生困惑的是中文字符和英文字符如何处理,在这里需要考虑汉字和英文字符的占用字节
java公众平台通用接口工具类HttpConnectUtil实例代码

实例如下: package com.common.util; import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.io.OutputStream; import java.net.ConnectException; import java.net.HttpURLConnection; import java.net.URL; import

Java实现Word/Pdf/TXT转html的实例代码

相关推荐

随机推荐