java如何利用poi解析doc和docx中的数据

前言

这个功能是工作中遇到的一个需求,需要把上传的word中的内容解析出来,其中包含段落字符串解析,和表格中的数据解析出来,需要支持doc和docx格式的数据

Apache POI是Apache软件基金会的开源项目,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。 .NET的开发人员则可以利用NPOI (POI for .NET) 来存取 Microsoft Office文档的功能。

方法如下:

1、增加maven中的包

		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>poi-scratchpad</artifactId>
			<version>3.17</version>
		</dependency>
		<!--POI包 -->
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>poi-ooxml</artifactId>
			<version>3.17</version>
		</dependency>

2、解析doc中的数据

获取文件,把MultipartFile对象的数据转成本地file

File file = new File(FileUtils.getUserDirectoryPath() + "/" + multipartFile.getOriginalFilename());
FileUtils.copyInputStreamToFile(multipartFile.getInputStream(), file);
		String fileName = file.getName().toLowerCase();
        FileInputStream in = new FileInputStream(file);
        if (fileName.endsWith(".doc")) {
            // 处理doc格式 即office2003版本
            handlerDoc(in);
        }
        if (fileName.endsWith(".docx")) {
            handlerDocx(in);
        }

解析doc格式中的段落和第一个表格数据

	/**
     * doc 格式解析
     *
     * @param in
     * @throws IOException
     */
    private void handlerDoc(FileInputStream in) throws IOException {
        POIFSFileSystem pfs = new POIFSFileSystem(in);
        HWPFDocument hwpf = new HWPFDocument(pfs);

        //得到文档的读取范围
        Range range = hwpf.getRange();
        for (int i = 0; i < range.numParagraphs(); i++) {
            //段落
            Paragraph p = range.getParagraph(i);
            //段落文本
            String paragraphText = p.text().replace("\r", "");
            log.info("paragraphText = {}", paragraphText );
            if (paragraphText.contains(VALUE_YLYC)) {
                analyze = false;
            }
        }

        TableIterator it = new TableIterator(range);
        // 迭代文档中的表格
        // 如果有多个表格只读取需要的一个 set是设置需要读取的第几个表格,total是文件中表格的总数
        int set = 1, total = 1;
        int num = set;
        for (int i = 0; i < set - 1; i++) {
            it.hasNext();
            it.next();
        }
        while (it.hasNext()) {
            Map<String, List<String>> tabelText = DocUtils.getTabelDocText((Table) it.next());
            log.info("tabelText = {}", tabelText);
        }
        // 过滤多余的表格
        while (num < total) {
            it.hasNext();
            it.next();
            num += 1;
        }
    }

3、解析docx中数据

解析docx格式中的段落和第一个表格数据

    /**
     * docx 格式解析
     *
     * @param in
     * @throws IOException
     */
    private void handlerDocx(FileInputStream in) throws IOException {
        XWPFDocument xwpf = new XWPFDocument(in);
        // 获取word中的所有段落与表格
        List<IBodyElement> elements = xwpf.getBodyElements();
        // 解析表格后续不解析
        for (IBodyElement element : elements) {
            // 段落
            if (element instanceof XWPFParagraph) {
                String paragraphText = DocUtils.getParagraphText((XWPFParagraph) element);
                log.info("paragraphText = {}", paragraphText);
            } else if (element instanceof XWPFTable) {
                // 表格
                Map<String, List<String>> tabelText = DocUtils.getTabelText((XWPFTable) element);
                log.info("tabelText = {}", tabelText);
            } else {
                log.info("其他内容");
            }
        }
    }

工具类

package com.hundsun.fais.innerreport.utils;

import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Table;
import org.apache.poi.hwpf.usermodel.TableCell;
import org.apache.poi.hwpf.usermodel.TableRow;
import org.apache.poi.xwpf.usermodel.*;

import java.util.*;

/**
 * @author lvbaolin
 * @date 2021/4/2 10:39
 */
public class DocUtils {

    /**
     * docx 格式获取表格内容
     *
     * @param table
     */
    public static Map<String, List<String>> getTabelText(XWPFTable table) {
        Map<String, List<String>> result = new LinkedHashMap<>();
        List<XWPFTableRow> rows = table.getRows();
        for (XWPFTableRow row : rows) {
            String key = null;
            List<String> list = new ArrayList<>(16);
            int i = 0;
            List<XWPFTableCell> cells = row.getTableCells();
            for (XWPFTableCell cell : cells) {
                // 简单获取内容(简单方式是不能获取字体对齐方式的)
                StringBuffer sb = new StringBuffer();
                // 一个单元格可以理解为一个word文档,单元格里也可以加段落与表格
                List<XWPFParagraph> paragraphs = cell.getParagraphs();
                for (XWPFParagraph paragraph : paragraphs) {
                    sb.append(DocUtils.getParagraphText(paragraph));
                }
                if (i == 0) {
                    key = sb.toString();
                } else {
                    String value = sb.toString();
                    list.add(value == null || Objects.deepEquals(value, "") ? null : value.replace(",", ""));
                }
                i++;
            }
            result.put(key, list);
        }
        return result;
    }

    /**
     * docx 获取段落字符串
     * 获取段落内容
     *
     * @param paragraph
     */
    public static String getParagraphText(XWPFParagraph paragraph) {
        StringBuffer runText = new StringBuffer();
        // 获取段落中所有内容
        List<XWPFRun> runs = paragraph.getRuns();
        if (runs.size() == 0) {
            return runText.toString();
        }
        for (XWPFRun run : runs) {
            runText.append(run.text());
        }
        return runText.toString();
    }

    /**
     * doc 格式的字段解析表格
     * @param tb
     * @return
     */
    public static Map<String, List<String>> getTabelDocText(Table tb) {
        Map<String, List<String>> result = new HashMap<>(16);
        //迭代行,默认从0开始,可以依据需要设置i的值,改变起始行数,也可设置读取到那行,只需修改循环的判断条件即可
        for (int i = 0; i < tb.numRows(); i++) {
            List<String> list = new ArrayList<>(16);
            int x = 0;
            TableRow tr = tb.getRow(i);
            String key = null;
            //迭代列,默认从0开始
            for (int j = 0; j < tr.numCells(); j++) {
                //取得单元格
                TableCell td = tr.getCell(j);
                StringBuffer sb = new StringBuffer();

                //取得单元格的内容
                for (int k = 0; k < td.numParagraphs(); k++) {
                    Paragraph paragraph = td.getParagraph(k);
                    String s = paragraph.text();
                    //去除后面的特殊符号
                    if (null != s && !"".equals(s)) {
                        s = s.substring(0, s.length() - 1);
                    }
                    sb.append(s);
                }
                if (x == 0) {
                    key = sb.toString();
                } else {
                    String value = sb.toString();
                    list.add(value == null || Objects.deepEquals(value, "") ? null : value.replace(",", ""));
                }
                x++;
            }
            result.put(key, list);
        }
        return result;
    }
}

总结

到此这篇关于java如何利用poi解析doc和docx中数据的文章就介绍到这了,更多相关java poi解析doc数据内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • JAVA使用POI(XSSFWORKBOOK)读取EXCEL文件过程解析

    经过一番搜索发现,java操纵excel文件常用的有jxl和poi两种方式,孰好孰坏看自己需求而定. 其中最主要的区别在于jxl不支持.xlsx,而poi支持.xlsx 这里介绍的使用poi方式(XSSFWorkbook),实际上poi提供了HSSFWorkbook和XSSFWorkbook两个实现类.区别在于HSSFWorkbook是针对.xls文件,XSSFWorkbook是针对.xslx文件. 首先明确一下基本概念: 先创建一个工作簿,一个工作簿可以有多个工作表,一个工作表可以有多个行,一

  • java读写excel文件实现POI解析Excel的方法

    在日常工作中,我们常常会进行文件读写操作,除去我们最常用的纯文本文件读写,更多时候我们需要对Excel中的数据进行读取操作,本文将介绍Excel读写的常用方法,希望对大家学习Java读写Excel会有帮助. package com.zhx.base.utils; import org.apache.poi.hssf.usermodel.HSSFWorkbook; import org.apache.poi.ss.usermodel.*; import org.apache.poi.xssf.us

  • java 中 poi解析Excel文件版本问题解决办法

    poi解析Excel文件版本问题解决办法 poi解析Excel文件时有两种格式: HSSFWorkbook格式用来解析Excel2003(xls)的文件 XSSFWorkbook格式用来解析Excel2007(xlsx)的文件 如果用HSSFWorkbook解析Excel2007(xlsx)时就会报异常:" The supplied data appears to be in the Office 2007+ XML. You are calling the part of POI that d

  • Java用POI解析excel并获取所有单元格数据的实例

    1.导入POI相关jar包 org.apache.poi jar 2.代码示例 public List getAllExcel(File file, String tableName, String fname, String enterpriseId, String reportId, String projectId) throws FileNotFoundException, IOException, ClassNotFoundException, InstantiationExcepti

  • Java使用poi操作excel实例解析

    本文实例为大家分享了Java使用poi操作excel的具体代码,供大家参考,具体内容如下 依赖poi的jar包,pom.xml配置如下: <project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0h

  • java poi解析word的方法

    之前做过用java读取word文档,获取word文本内容. 但发现docx的支持,doc就异常了. 后来找了很多资料发现是解析方法不一样. 首先要导入poi相关的jar包 我用的是maven,pom.xml引入如下: <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>3.8</version>

  • java POI解析Excel 之数据转换公用方法(推荐)

    如下所示: public static String reThreeStr(String ss){ boolean result= ss.matches("^[-+]?(([0-9]+)([.]([0-9]+))?|([.]([0-9]+))?)$"); if(result&&ss!=null&&!"".equals(ss)){ Double sss=Double.valueOf(ss); String numStr=new java

  • java如何利用poi解析doc和docx中的数据

    前言 这个功能是工作中遇到的一个需求,需要把上传的word中的内容解析出来,其中包含段落字符串解析,和表格中的数据解析出来,需要支持doc和docx格式的数据 Apache POI是Apache软件基金会的开源项目,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. .NET的开发人员则可以利用NPOI (POI for .NET) 来存取 Microsoft Office文档的功能. 方法如下: 1.增加maven中的包 <dependency> <

  • Java利用openoffice将doc、docx转为pdf实例代码

    本文研究的主要是Java编程利用openoffice将doc.docx转为pdf的实现代码,具体如下. 1. 需要用的软件 OpenOffice , JodConverter 2.启动OpenOffice的服务 我到网上查如何利用OpenOffice进行转码的时候,都是需要先用cmd启动一个soffice服务,启动的命令是:soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;". 但是实际上,对于我的项目,进行转

  • java使用poi读取doc和docx文件的实现示例

    这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码. 我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码. 于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取,而是也需要用poi,于是进行了一番尝试后,终于以正确的编码格式读取了这个doc文件. 在网上搜索的过程中发现doc和docx的读取方法是不一样的,于是顺带也学了一下docx文件的简单读取. 一.导包: doc文

  • Java如何利用POI读取Excel行数

    这篇文章主要介绍了java如何利用POI读取Execel行数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 java 利用poi 读excel文件的操作,读取总的数据行数一般是通过调用 sheet.getLastRowNum() ;可是这样有时候会出现一些问题,例如,当其中一行的数据的确都为空,可是其原本的格式还在,并没有连带删除,这样计算出来的行数就不真实(比真实的大),还有当出现空白行时(也即某一行没有任何数据,通过Row row = sh

  • Java在利用反射条件下替换英文字母中的值

    Java在利用反射条件下替换英文字母中的值 (1)创建两个Class: ReflectTest类如下: package cn.itcast.day01; import java.lang.reflect.Constructor; import java.lang.reflect.Field; public class ReflectTest { public static void main(String[] args) throws Exception { changeStringValue(

  • Java利用EasyExcel解析动态表头及导出实现过程

    目录 前言 参考地址 前端下载 模板下载 EasyExcel动态表头解析 EasyExcel动态表头导出 总结 前言 excel文件导入及导出,是日常开发中经常遇到的需求.本次笔者以EasyExcel为例,针对在项目中遇到的动态表头解析及导出的场景,详细介绍具体的代码实现过程. 参考地址 https://github.com/alibaba/easyexcel 前端下载 const download = () => { axios({ method: 'GET', url: config.htt

  • Java利用POI读取、写入Excel的方法指南

    前言 Apache POI [1] 是用Java编写的免费开源的跨平台的 Java API,Apache POI提供API给Java程式对Microsoft Office格式档案读和写的功能.POI为"Poor Obfuscation Implementation"的首字母缩写,意为"简洁版的模糊实现". 做项目时经常有通过程序读取Excel数据,或是创建新的Excel并写入数据的需求: 网上很多经验教程里使用的POI版本都比较老了,一些API在新版里已经废弃,这里

随机推荐