java读取word文档,提取标题和内容的实例

使用的工具为poi,需要导入的依赖如下

<dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>poi</artifactId>
   <version>3.17</version>
  </dependency>
  <dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>poi-ooxml</artifactId>
   <version>3.17</version>
  </dependency>
  <dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>poi-scratchpad</artifactId>
   <version>3.17</version>
  </dependency>
  <dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>ooxml-schemas</artifactId>
   <version>1.1</version>
  </dependency>
  <dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>poi-ooxml-schemas</artifactId>
   <version>3.17</version>
  </dependency>

我采用的分离方式是根据字体大小判断。寻找字体大小和下一段大小不同的段落,再一次判断第二段和后边的是否相同,相同则继续,不同则输出标题和内容。

因为有的文档中存在多个标题,所以我在开始加了判断,如果连续三个段落的字体大小递减则该段落跳过。

而且文章存在目录,经过测试发现目录的String中都包含了“HYPERLINK” 所以如果段落中包含该字符串则跳过。

代码如下:

package com.w.test;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.hwpf.usermodel.CharacterRun;
import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
import org.apache.poi.xwpf.usermodel.XWPFRun;
import com.example.model.Policy_content;
public class GetWord {
 public static void main(String[] args) {
  // TODO Auto-generated method stub
  try {
   List<Policy_content> list = new ArrayList<>();
   InputStream is = new FileInputStream(new File("文件路径")); //需要将文件路更改为word文档所在路径。
   POIFSFileSystem fs = new POIFSFileSystem(is);
   HWPFDocument document = new HWPFDocument(fs);
   Range range = document.getRange();
   CharacterRun run1 = null;//用来存储第一行内容的属性
   CharacterRun run2 = null;//用来存储第二行内容的属性
   int q=1;
   for (int i = 0; i < range.numParagraphs()-1; i++) {
    Paragraph para1 = range.getParagraph(i);// 获取第i段
    Paragraph para2 = range.getParagraph(i+1);// 获取第i段
    int t=i;    //记录当前分析的段落数

    String paratext1 = para1.text().trim().replaceAll("\r\n", ""); //当前段落和下一段
    String paratext2 = para2.text().trim().replaceAll("\r\n", "");
    run1=para1.getCharacterRun(0);
    run2=para2.getCharacterRun(0);
    if (paratext1.length() > 0&&paratext2.length() > 0) {
      //这个if语句为的是去除大标题,连续三个段落字体大小递减就跳过
      if(run1.getFontSize()>run2.getFontSize()&&run2.getFontSize()>range.getParagraph(i+2).getCharacterRun(0).getFontSize()) {
       continue;
      }
      //连续两段字体格式不同
      if(run1.getFontSize()>run2.getFontSize()) {

       String content=paratext2;
       run1=run2; //从新定位run1 run2
       run2=range.getParagraph(t+2).getCharacterRun(0);
       t=t+1;
       while(run1.getFontSize()==run2.getFontSize()) {
        //连续的相同
        content+=range.getParagraph(t+1).text().trim().replaceAll("\r\n", "");
        run1=run2;
        run2=range.getParagraph(t+2).getCharacterRun(0);
        t++;
       }

       if(paratext1.indexOf("HYPERLINK")==-1&&content.indexOf("HYPERLINK")==-1) {
        System.out.println(q+"标题"+paratext1+"\t内容"+content);
        i=t;
        q++;
       }

      }
    }
   }

  } catch (Exception e) {
   e.printStackTrace();
  }
 }

}

补充知识:Java poi导入word文件提取内容

一、需求描述

java web项目从前台上传word格式文件,后台接收文件并提取word内容保存至数据库。

二、依赖jar包

这里操作的是maven项目,所有依赖jar包均可到maven仓库进行免费下载。具体如下:

三、后台代码

这里的java_web项目采用SpringMVC的内置文件上传方式进行接收解析,具体如下:

 /**
  * 提取word文件内容
  * @param file
  * @param request
  * @return
  * @throws IOException
  * @throws IllegalStateException
  */
 @RequestMapping(value = "/getPapers", method = RequestMethod.POST, produces = { "text/html;charset=utf-8" })
 @ResponseBody
 private Object getPapers(@RequestParam("file") MultipartFile multfile,HttpServletRequest request) throws IllegalStateException, IOException {
  // 获取文件名
  String fileName = multfile.getOriginalFilename();
  //判断是否为word类型文件
  if (!fileName.endsWith(".doc") && !fileName.endsWith(".docx")) {
   System.out.println("此文件不是word文件!");
  }
  //当前系统的临时文件地址
  String realPath = request.getSession().getServletContext().getRealPath("/static/app/appkmbgszh/uploadFile");
  // 用uuid作为文件名,防止生成的临时文件重复
  String fileAdd = UUID.randomUUID().toString() + ".docx";
  // 构建一个临时文件
  File uploadFile = new File(realPath, fileAdd);
  //将上传的MultipartFile格式文件转换为创建的新文件
  multfile.transferTo(uploadFile);
  //获取新文件的绝对路径
  String filePath = uploadFile.getAbsolutePath();

  String buffer = "";
  JSONObject msg = new JSONObject();
  try {
   InputStream inIo = new FileInputStream(uploadFile);
   //提取文本内容
   if (fileName.endsWith(".doc")) {
    WordExtractor ex = new WordExtractor(inIo);
    buffer = ex.getText();
    ex.close();
   } else if (fileName.endsWith(".docx")) {
    OPCPackage opcPackage = POIXMLDocument.openPackage(filePath);
    POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
    buffer = extractor.getText();
    extractor.close();
   }
   //删除上传存放的临时文件
   uploadFile.delete();
   msg.put("status", true);
   msg.put("msg", buffer);
  } catch (Exception e) {
   e.printStackTrace();
   msg.put("status", false);
   msg.put("msg", "文件内容提取失败");
  }
  return retString(msg);
 }

 /**
  * json格式化;
  * @param ret
  * @return
  */
 private String retString(JSONObject ret) {
  String jsoStr = "";
  try {
   jsoStr = JSON.json(ret);
  } catch (IOException e) {
   e.printStackTrace();
   return jsoStr;
  }
  return jsoStr;
 }

以上这篇java读取word文档,提取标题和内容的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。

(0)

相关推荐

  • Java如何读取配置文件并赋值静态变量

    应用场景 项目开发中某个功能需要抽取成方法写成一个工具类,提供给别人使用.写过工具类的人都知道,工具类中的方法一般都是静态方法,可以直接使用类名点方法名调用, 使用很方便,比如判断某个对象是否为null的方式Objects.equals().由于我写的这个工具类中需要读取配置文件中的内容,可是常规方式注入成员变量时都不是静态的,不 能直接调用,比如这种方式: @Data @Component public class GBaseApiConfig { @Value("${gbase.api.pr

  • java 数组转list的两种方式

    方式一 String[] array = {"111","222","333"}; List<String> list = Arrays.asList(array); // list.add("444"); list.remove(0); 如上图所示,不可进行新增或删除元素的操作. Arrays.asList(array),返回的List是具有固定长度的私有静态内部类java.util.Arrays.ArrayLi

  • java 压缩图片(只缩小体积,不更改图片尺寸)的示例

    1.情景展示 在调用腾讯身份证OCR接口的时候,由于要求图片大小只能限制在1MB以内,这样,就必须使用到图片压缩技术 2.代码展示 /**  * 图片处理工具类  * @explain  * @author Marydon  * @creationTime 2019年9月3日上午10:14:17  * @version 1.0  * @since  * @email marydon20170307@163.com  */ public class ImgUtils {     /**      

  • java 根据身份证号码判断出生日期、性别、年龄的示例

    1.情景展示 如何根据身份证号,计算出出生日期.性别.年龄? 2.解决方案 从网上找的别人的,因为并没有实际用到,所以并未对其优化! /**  * 通过身份证号码获取出生日期.性别.年龄  * @param certificateNo  * @return 返回的出生日期格式:1990-01-01 性别格式:F-女,M-男  */ public static Map<String, String> getBirAgeSex(String certificateNo) {     String

  • java读取html文件,并获取body中所有的标签及内容的案例

    这里的获取的是html文件中body中的所有标签以及内容 package com.lmt.service.file; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; import java.io.Reader; import org.springframework.stereotype.Component; i

  • java byte数组与16进制间相互转换的示例

    1.准备工作 import java.util.Arrays; /** * Byte[]与hex的相互转换 * @explain * @author Marydon * @creationTime 2018年6月11日下午2:29:11 * @version 1.0 * @since * @email marydon20170307@163.com */ public class ByteUtils { // 16进制字符 private static final char[] HEX_CHAR

  • Java使用FileInputStream流读取文件示例详解

    一.File流概念 JAVA中针对文件的读写操作设置了一系列的流,其中主要有FileInputStream,FileOutputStream,FileReader,FileWriter四种最为常用的流 二.FileInputStream 1)FileInputStream概念  FileInputStream流被称为文件字节输入流,意思指对文件数据以字节的形式进行读取操作如读取图片视频等 2)构造方法 2.1)通过打开与File类对象代表的实际文件的链接来创建FileInputStream流对象

  • Java读取Oracle大字段数据(CLOB)的2种方法

    Oracle数据库中有一个字段是CLOB类型,使用java 解析. 1.使用java解析clob类型内容 public String clobToString(Clob c) { StringBuffer sb = new StringBuffer(1024); Reader instream = null; try { instream = c.getCharacterStream(); char[] buffer = new char[(int) c.length()]; int lengt

  • java 实现读取clob

    1.说明 jdbc 数据类型为Clob,与java的String类型相对应. 2.导入 import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.ResultSetMetaData; import java.sql.SQLException; import java.sql.Statement; import java.util.ArrayList;

  • java读取word文档,提取标题和内容的实例

    使用的工具为poi,需要导入的依赖如下 <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>3.17</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <arti

  • Java 替换word文档文字并指定位置插入图片

    先说下 需要的依赖包 <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-excelant</artifactId> <version>3.12</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <arti

  • 使用python批量读取word文档并整理关键信息到excel表格的实例

    目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下所示) 方便后面建立电子数据库 从而使得其他人可以迅速地搜索到相关记录 据说"人生苦短,我用python" 所以决定用python从docx文档中提取文件头的信息 然后把信息更新到一个xls电子表格中,像下面这样(直接po结果好了) 而且点击文件路径可以直接打开对应的文件(含超链接) 代码

  • Python 读取 Word 文档操作

    目录 前言 Python 读取 Word 文档 安装 python-docx库 前言 Word 文档 (.docx) 是另一种主要用于存储文本的常见文档.它们通常由 Microsoft Office 创建和编辑,但也可以使用其他工具生成兼容文件.它们通常是共享可编辑文件的最常见格式,同时在分发文档时也非常常见. Python 读取 Word 文档 安装 python-docx库 在本节中,我们将学习如何使用 Python 从 Word 文档中提取文本信息.我们主要使用 python-docx 库

  • 易语言读取Word文档方法

    Office办公软件,相信大家都已经很熟悉了.如何读取Word文档内容,相信大家也都知道.但是,笔者今天要说的是,易语言怎么读取Word文档内容呢? 1.首先,为了配合此次程序测试,我们事先准备好一个Word文件即Docx文件,为了使得软件能正确读取出其中内容,我们在Word文件中,输入"百度经验"作为测试标示.如图: 2.测试文件已就位,打开"易语言",在弹出的"新建工程文件"对话框中,选择"Windows窗口程序"并点击&

  • java实现word文档转pdf并添加水印的方法详解

    本文实例讲述了java实现word文档转pdf并添加水印的方法.分享给大家供大家参考,具体如下: 前段时间,项目需要自动生成word文档,用WordFreeMarker生成word文档后,又要求生成的文档能在浏览器浏览,思来想去,把word文档转成pdf就好了,于是乎研究了一下. 将word文档转化为PDF是项目中常见的需求之一,目前主流的方法可以分为两大类,一类是利用各种Office应用进行转换,譬如Microsoft Office.WPS以及LiberOffice,另一种是利用各种语言提供的

  • python读取word文档,插入mysql数据库的示例代码

    表格内容如下: 1.实现批量导入word文档,取文档标题中的数字作为编号 2.除取上面打钩的内容需要匹配出来入库入库,其他内容全部直接入库mysql # wuyanfeng # -*- coding:utf-8 -*- # 读取docx中的文本代码示例 import docx import pymysql import re import os # 创建数据库链接 conn = pymysql.connect( host='rm-bp1vu5d84dg12c6d59o.mysql.rds.ali

  • 最简单的java生成word文档方法

    1.首先新建一个word文档,然后设计好格式,比如说我的标题是黑体二号,居中对其,正文是宋体四号,如下 2.另存为xml格式(文件->另存为)的文件,如下图 3.使用txt打开保存的xml文件,复制完,贴到你的代码里,如图 4.替换内容,Ctrl+F搜索标题(第一步我输入的),把标题换成你要显示的动态标题,把 正文替换成你想要的动态内容,如下 5.设置相应头生成doc文件 6.测试:在浏览器输入http:127.0.0.1:8080/createDoc,结果如下: 7.分享代码 (1)以下是生成

  • php通过baihui网API实现读取word文档并展示

    项目中遇到一个小问题,想实现php 如何读取word文档,并将其内容原样显示 可以 使用API 可以看看baihui.com 的写写应用 的API 申请一个 APPKEY 就能使用,你可以看看 ... 对免费版本有限制 比如 excel 支持,可以参考我这个 appkey是我申请的,可以使用吧 ... 保存成本地的一个html文件 打开后直接使用 word 的类似 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN&q

  • PHP读取word文档的方法分析【基于COM组件】

    本文实例讲述了PHP读取word文档的方法.分享给大家供大家参考,具体如下: php开发 过程中可能会word文档的读取问题,这里可以利用com组件来完成此项操作 一.先开启php.ini的COM,操作如下 1. extension=php_com_dotnet.dll 2. com.allow_dcom = true 二.开启之后就可以试下如下操作 1.建立一个指向新COM组件的索引 $word = new COM("word.application") or die("C

随机推荐