java读取word文档,提取标题和内容的实例

2026-02-24 12:42:51

使用的工具为poi，需要导入的依赖如下

<dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>poi</artifactId>
   <version>3.17</version>
  </dependency>
  <dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>poi-ooxml</artifactId>
   <version>3.17</version>
  </dependency>
  <dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>poi-scratchpad</artifactId>
   <version>3.17</version>
  </dependency>
  <dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>ooxml-schemas</artifactId>
   <version>1.1</version>
  </dependency>
  <dependency>
   <groupId>org.apache.poi</groupId>
   <artifactId>poi-ooxml-schemas</artifactId>
   <version>3.17</version>
  </dependency>

我采用的分离方式是根据字体大小判断。寻找字体大小和下一段大小不同的段落，再一次判断第二段和后边的是否相同，相同则继续，不同则输出标题和内容。

因为有的文档中存在多个标题，所以我在开始加了判断，如果连续三个段落的字体大小递减则该段落跳过。

而且文章存在目录，经过测试发现目录的String中都包含了“HYPERLINK” 所以如果段落中包含该字符串则跳过。

代码如下：

package com.w.test;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.hwpf.usermodel.CharacterRun;
import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
import org.apache.poi.xwpf.usermodel.XWPFRun;
import com.example.model.Policy_content;
public class GetWord {
 public static void main(String[] args) {
  // TODO Auto-generated method stub
  try {
   List<Policy_content> list = new ArrayList<>();
   InputStream is = new FileInputStream(new File("文件路径")); //需要将文件路更改为word文档所在路径。
   POIFSFileSystem fs = new POIFSFileSystem(is);
   HWPFDocument document = new HWPFDocument(fs);
   Range range = document.getRange();
   CharacterRun run1 = null;//用来存储第一行内容的属性
   CharacterRun run2 = null;//用来存储第二行内容的属性
   int q=1;
   for (int i = 0; i < range.numParagraphs()-1; i++) {
    Paragraph para1 = range.getParagraph(i);// 获取第i段
    Paragraph para2 = range.getParagraph(i+1);// 获取第i段
    int t=i;    //记录当前分析的段落数

    String paratext1 = para1.text().trim().replaceAll("\r\n", ""); //当前段落和下一段
    String paratext2 = para2.text().trim().replaceAll("\r\n", "");
    run1=para1.getCharacterRun(0);
    run2=para2.getCharacterRun(0);
    if (paratext1.length() > 0&&paratext2.length() > 0) {
      //这个if语句为的是去除大标题，连续三个段落字体大小递减就跳过
      if(run1.getFontSize()>run2.getFontSize()&&run2.getFontSize()>range.getParagraph(i+2).getCharacterRun(0).getFontSize()) {
       continue;
      }
      //连续两段字体格式不同
      if(run1.getFontSize()>run2.getFontSize()) {

       String content=paratext2;
       run1=run2; //从新定位run1 run2
       run2=range.getParagraph(t+2).getCharacterRun(0);
       t=t+1;
       while(run1.getFontSize()==run2.getFontSize()) {
        //连续的相同
        content+=range.getParagraph(t+1).text().trim().replaceAll("\r\n", "");
        run1=run2;
        run2=range.getParagraph(t+2).getCharacterRun(0);
        t++;
       }

       if(paratext1.indexOf("HYPERLINK")==-1&&content.indexOf("HYPERLINK")==-1) {
        System.out.println(q+"标题"+paratext1+"\t内容"+content);
        i=t;
        q++;
       }

      }
    }
   }

  } catch (Exception e) {
   e.printStackTrace();
  }
 }

}

补充知识：Java poi导入word文件提取内容

一、需求描述

java web项目从前台上传word格式文件，后台接收文件并提取word内容保存至数据库。

二、依赖jar包

这里操作的是maven项目，所有依赖jar包均可到maven仓库进行免费下载。具体如下：

三、后台代码

这里的java_web项目采用SpringMVC的内置文件上传方式进行接收解析，具体如下：

 /**
  * 提取word文件内容
  * @param file
  * @param request
  * @return
  * @throws IOException
  * @throws IllegalStateException
  */
 @RequestMapping(value = "/getPapers", method = RequestMethod.POST, produces = { "text/html;charset=utf-8" })
 @ResponseBody
 private Object getPapers(@RequestParam("file") MultipartFile multfile，HttpServletRequest request) throws IllegalStateException, IOException {
  // 获取文件名
  String fileName = multfile.getOriginalFilename();
  //判断是否为word类型文件
  if (!fileName.endsWith(".doc") && !fileName.endsWith(".docx")) {
   System.out.println("此文件不是word文件！");
  }
  //当前系统的临时文件地址
  String realPath = request.getSession().getServletContext().getRealPath("/static/app/appkmbgszh/uploadFile");
  // 用uuid作为文件名，防止生成的临时文件重复
  String fileAdd = UUID.randomUUID().toString() + ".docx";
  // 构建一个临时文件
  File uploadFile = new File(realPath, fileAdd);
  //将上传的MultipartFile格式文件转换为创建的新文件
  multfile.transferTo(uploadFile);
  //获取新文件的绝对路径
  String filePath = uploadFile.getAbsolutePath();

  String buffer = "";
  JSONObject msg = new JSONObject();
  try {
   InputStream inIo = new FileInputStream(uploadFile);
   //提取文本内容
   if (fileName.endsWith(".doc")) {
    WordExtractor ex = new WordExtractor(inIo);
    buffer = ex.getText();
    ex.close();
   } else if (fileName.endsWith(".docx")) {
    OPCPackage opcPackage = POIXMLDocument.openPackage(filePath);
    POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
    buffer = extractor.getText();
    extractor.close();
   }
   //删除上传存放的临时文件
   uploadFile.delete();
   msg.put("status", true);
   msg.put("msg", buffer);
  } catch (Exception e) {
   e.printStackTrace();
   msg.put("status", false);
   msg.put("msg", "文件内容提取失败");
  }
  return retString(msg);
 }

 /**
  * json格式化;
  * @param ret
  * @return
  */
 private String retString(JSONObject ret) {
  String jsoStr = "";
  try {
   jsoStr = JSON.json(ret);
  } catch (IOException e) {
   e.printStackTrace();
   return jsoStr;
  }
  return jsoStr;
 }

以上这篇java读取word文档,提取标题和内容的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

java 压缩图片（只缩小体积，不更改图片尺寸）的示例

1.情景展示在调用腾讯身份证OCR接口的时候,由于要求图片大小只能限制在1MB以内,这样,就必须使用到图片压缩技术 2.代码展示 /** * 图片处理工具类 * @explain * @author Marydon * @creationTime 2019年9月3日上午10:14:17 * @version 1.0 * @since * @email marydon20170307@163.com */ public class ImgUtils { /**
Java如何读取配置文件并赋值静态变量

应用场景项目开发中某个功能需要抽取成方法写成一个工具类,提供给别人使用.写过工具类的人都知道,工具类中的方法一般都是静态方法,可以直接使用类名点方法名调用, 使用很方便,比如判断某个对象是否为null的方式Objects.equals().由于我写的这个工具类中需要读取配置文件中的内容,可是常规方式注入成员变量时都不是静态的,不能直接调用,比如这种方式: @Data @Component public class GBaseApiConfig { @Value("${gbase.api.pr
java byte数组与16进制间相互转换的示例

1.准备工作 import java.util.Arrays; /** * Byte[]与hex的相互转换 * @explain * @author Marydon * @creationTime 2018年6月11日下午2:29:11 * @version 1.0 * @since * @email marydon20170307@163.com */ public class ByteUtils { // 16进制字符 private static final char[] HEX_CHAR
java读取html文件,并获取body中所有的标签及内容的案例

这里的获取的是html文件中body中的所有标签以及内容 package com.lmt.service.file; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; import java.io.Reader; import org.springframework.stereotype.Component; i
Java使用FileInputStream流读取文件示例详解

一.File流概念 JAVA中针对文件的读写操作设置了一系列的流,其中主要有FileInputStream,FileOutputStream,FileReader,FileWriter四种最为常用的流二.FileInputStream 1)FileInputStream概念 FileInputStream流被称为文件字节输入流,意思指对文件数据以字节的形式进行读取操作如读取图片视频等 2)构造方法 2.1)通过打开与File类对象代表的实际文件的链接来创建FileInputStream流对象
java 根据身份证号码判断出生日期、性别、年龄的示例

1.情景展示如何根据身份证号,计算出出生日期.性别.年龄? 2.解决方案从网上找的别人的,因为并没有实际用到,所以并未对其优化! /** * 通过身份证号码获取出生日期.性别.年龄 * @param certificateNo * @return 返回的出生日期格式:1990-01-01 性别格式:F-女,M-男 */ public static Map<String, String> getBirAgeSex(String certificateNo) { String
java 实现读取clob

1.说明 jdbc 数据类型为Clob,与java的String类型相对应. 2.导入 import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.ResultSetMetaData; import java.sql.SQLException; import java.sql.Statement; import java.util.ArrayList;
Java读取Oracle大字段数据（CLOB）的2种方法

Oracle数据库中有一个字段是CLOB类型,使用java 解析. 1.使用java解析clob类型内容 public String clobToString(Clob c) { StringBuffer sb = new StringBuffer(1024); Reader instream = null; try { instream = c.getCharacterStream(); char[] buffer = new char[(int) c.length()]; int lengt
java 数组转list的两种方式

方式一 String[] array = {"111","222","333"}; List<String> list = Arrays.asList(array); // list.add("444"); list.remove(0); 如上图所示,不可进行新增或删除元素的操作. Arrays.asList(array),返回的List是具有固定长度的私有静态内部类java.util.Arrays.ArrayLi
java读取word文档,提取标题和内容的实例

使用的工具为poi,需要导入的依赖如下 <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>3.17</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <arti
Java 替换word文档文字并指定位置插入图片

先说下需要的依赖包 <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-excelant</artifactId> <version>3.12</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <arti
使用python批量读取word文档并整理关键信息到excel表格的实例

目标最近实验室里成立了一个计算机兴趣小组倡议大家多把自己解决问题的经验记录并分享就像在CSDN写博客一样虽然刚刚起步但考虑到后面此类经验记录的资料会越来越多所以一开始就要做好模板设计(如下所示) 方便后面建立电子数据库从而使得其他人可以迅速地搜索到相关记录据说"人生苦短,我用python" 所以决定用python从docx文档中提取文件头的信息然后把信息更新到一个xls电子表格中,像下面这样(直接po结果好了) 而且点击文件路径可以直接打开对应的文件(含超链接) 代码
Python 读取 Word 文档操作

目录前言 Python 读取 Word 文档安装 python-docx库前言 Word 文档 (.docx) 是另一种主要用于存储文本的常见文档.它们通常由 Microsoft Office 创建和编辑,但也可以使用其他工具生成兼容文件.它们通常是共享可编辑文件的最常见格式,同时在分发文档时也非常常见. Python 读取 Word 文档安装 python-docx库在本节中,我们将学习如何使用 Python 从 Word 文档中提取文本信息.我们主要使用 python-docx 库
易语言读取Word文档方法

Office办公软件,相信大家都已经很熟悉了.如何读取Word文档内容,相信大家也都知道.但是,笔者今天要说的是,易语言怎么读取Word文档内容呢? 1.首先,为了配合此次程序测试,我们事先准备好一个Word文件即Docx文件,为了使得软件能正确读取出其中内容,我们在Word文件中,输入"百度经验"作为测试标示.如图: 2.测试文件已就位,打开"易语言",在弹出的"新建工程文件"对话框中,选择"Windows窗口程序"并点击&
java实现word文档转pdf并添加水印的方法详解

本文实例讲述了java实现word文档转pdf并添加水印的方法.分享给大家供大家参考,具体如下: 前段时间,项目需要自动生成word文档,用WordFreeMarker生成word文档后,又要求生成的文档能在浏览器浏览,思来想去,把word文档转成pdf就好了,于是乎研究了一下. 将word文档转化为PDF是项目中常见的需求之一,目前主流的方法可以分为两大类,一类是利用各种Office应用进行转换,譬如Microsoft Office.WPS以及LiberOffice,另一种是利用各种语言提供的
python读取word文档,插入mysql数据库的示例代码

表格内容如下: 1.实现批量导入word文档,取文档标题中的数字作为编号 2.除取上面打钩的内容需要匹配出来入库入库,其他内容全部直接入库mysql # wuyanfeng # -*- coding:utf-8 -*- # 读取docx中的文本代码示例 import docx import pymysql import re import os # 创建数据库链接 conn = pymysql.connect( host='rm-bp1vu5d84dg12c6d59o.mysql.rds.ali
最简单的java生成word文档方法

1.首先新建一个word文档,然后设计好格式,比如说我的标题是黑体二号,居中对其,正文是宋体四号,如下 2.另存为xml格式(文件->另存为)的文件,如下图 3.使用txt打开保存的xml文件,复制完,贴到你的代码里,如图 4.替换内容,Ctrl+F搜索标题(第一步我输入的),把标题换成你要显示的动态标题,把正文替换成你想要的动态内容,如下 5.设置相应头生成doc文件 6.测试:在浏览器输入http:127.0.0.1:8080/createDoc,结果如下: 7.分享代码 (1)以下是生成
php通过baihui网API实现读取word文档并展示

项目中遇到一个小问题,想实现php 如何读取word文档,并将其内容原样显示可以使用API 可以看看baihui.com 的写写应用的API 申请一个 APPKEY 就能使用,你可以看看 ... 对免费版本有限制比如 excel 支持,可以参考我这个 appkey是我申请的,可以使用吧 ... 保存成本地的一个html文件打开后直接使用 word 的类似 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN&q
PHP读取word文档的方法分析【基于COM组件】

本文实例讲述了PHP读取word文档的方法.分享给大家供大家参考,具体如下: php开发过程中可能会word文档的读取问题,这里可以利用com组件来完成此项操作一.先开启php.ini的COM,操作如下 1. extension=php_com_dotnet.dll 2. com.allow_dcom = true 二.开启之后就可以试下如下操作 1.建立一个指向新COM组件的索引 $word = new COM("word.application") or die("C

java读取word文档,提取标题和内容的实例

相关推荐

随机推荐