CentOS下使用LibreOffice实现文档格式的转换方式

2025-04-18 03:43:32

项目需求，对上传的文档进行一些预处理，如果用户上传了doc格式的文档，需要将其处理为docx或者pdf格式，以便后续的流程对文档内容进行提取。

先是试了一下phpoffice/phpword这个包，发现其对doc的转换很不理想，这个包更适合用来根据内容生成文档，而不是转换文档，不是太适合我这种需求。

然后发现了LibreOffice这个开源工具，经过使用，效果很好，分享一下。

服务器是CentOS7，直接使用yum安装LibreOffice，大概需要600MB+ 的磁盘空间：

# 装之前可以先删除一下，防止之前装过
yum remove libreoffice-*
yum install libreoffice

等待安装完成后，确认一下版本啥的，虽然官方已经到6.1版本了，yum里面还是5.3.6的包，不过用起来并没有什么毛病，在这里我还是建议大家使用各自的Linux系统的包管理工具来安装，这样可以省去很多麻烦的。

[root@localhost /]# soffice --version
LibreOffice 5.3.6.1 30(Build:1)

不会用的话可以使用soffice --help看一下帮助，非常多的参数和使用案例，转换格式就很简单：

soffice --headless --convert-to docx /opt/upload/source/123.doc --outdir /opt/upload/source

以上的命令就是将/opt/upload/source/123.doc文件转换成docx格式，输出到/opt/upload/source文件夹里。

默认情况下：

会使用源文件名+新的扩展名保存输出文件；
会覆盖outdir里已经有的同名文件；

转换成功会输出类似这样的：

convert /opt/upload/source/123.doc -> /opt/upload/source/123.docx using filter : MS Word 2007 XML
Overwriting: /opt/upload/source/123.docx

LibreOffice会根据文件格式自动匹配格式过滤器（filter），至于它支持哪些格式，可以参考一下官网。

总结

以上所述是小编给大家介绍的CentOS下使用LibreOffice实现文档格式的转换方式,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

centos7下搭建ZooKeeper3.4中间件常用命令小结

一.下载解压 1.Zookeeper简介 Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化.通过监控这些数据状态的变化,从而可以达到基于数据的集群管理. 2.下载环境版本 centos7 zookeeper 3.4.14 [root@localhost mysoft]$ cd /usr/local
Linux系统下 centos7下搭建ElasticSearch中间件及常用接口演示

一.中间件简介 1.基础概念 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎. 2.分布式数据库分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都可能有DBMS的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络
CentOS下使用LibreOffice实现文档格式的转换方式

项目需求,对上传的文档进行一些预处理,如果用户上传了doc格式的文档,需要将其处理为docx或者pdf格式,以便后续的流程对文档内容进行提取. 先是试了一下phpoffice/phpword这个包,发现其对doc的转换很不理想,这个包更适合用来根据内容生成文档,而不是转换文档,不是太适合我这种需求. 然后发现了LibreOffice这个开源工具,经过使用,效果很好,分享一下. 服务器是CentOS7,直接使用yum安装LibreOffice,大概需要600MB+ 的磁盘空间: # 装之前可以先删
基于Python实现简易文档格式转换器

目录需求分析开发环境引用模块 UI界面代码块格式转换主要代码块效果展示最近看到市场上各种的文档格式转换软件,要么是收费.要么是有大量的广告.于是学习了一下 PyQt5 的页面操作,再加上了解 pandas 的使用方法.所以,萌生了想法写一个简单的文档格式转换应用.或者有更好的实现方式请在评论区留言,大家一起讨论学习~ 需求分析 1.将 .txt 的文本文档转换成 csv 格式文件. 2.将 .txt 的文本文档转换成 excel 格式文件. 开发环境 1.运行环境:python-3.
利用python将图片转换成excel文档格式

前言本文主要介绍了关于利用python将图片转换成excel文档的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 实现步骤读取图像,获取图像每个像素点的RGB值: 根据每个像素点的RGB值设置excel每个方格的颜色值: 根据像素点的坐标,写入excel文件: 保存退出: 示例代码 from PIL import Image import numpy as np import time import matplotlib.pyplot as plt import
java 获取当前路径下的所有xml文档的方法

复制代码代码如下: import java.io.File; public class ShowAllXML { public static void main(String[] args) { File file = new File("").getAbsoluteFile(); String[] dir; dir = file.list(); for (int i = 0; i < file.list().length; i++) { if (dir[i].length()
Python实现Word文档转换Markdown的示例

随着SaaS服务的流行,越来越多的人选择在各个平台上编写文档,制作表格并进行分享. 同时,随着Markdown语法的破圈,很多平台开始集成支持这种简洁的书写标记语言,这样可以保证平台上用户文档样式的统一性. 但是在一些场景下,我们还是会在本地的Office软件上写有很多文档,或者历史遗留了很多本地文档. 如果我们需要将其上传到各大平台,直接复制粘贴,大概率是会造成文档内容结构和样式的丢失.于此我们需要将其转换为 Markdown 语法. 很多桌面软件(比如Typora)都提供了导入 Word 文
python实现word文档批量转成自定义格式的excel文档的思路及实例代码

支持按照文件夹去批量处理,也可以单独一个文件进行处理,并且可以自定义标识符最近在开发一个答题类的小程序,到了录入试题进行测试的时候了,发现一个问题,试题都是word文档格式的,每份有100题左右,拿到的第一份试题,光是段落数目就有800个.而且可能有几十份这样的试题. 而word文档是没有固定格式的,想批量录入关系型数据库mysql,必须先转成excel文档.这个如果是手动一个个粘贴到excel表格,那就头大了. 我最终需要的excel文档结构是这样的:每道题独立占1行,每1列是这道题的一项内
C#实现Word和ODT文档相互转换详解

目录程序环境方法1 方法2 格式转换 1. Word转为ODT C# vb.net 2. ODT转为Word C# vb.net ODT文档格式一种开放文档格式(OpenDocument Text).通常,ODT格式的文件可以使用LibreOffice Writer.MS Word或其他一些文档编辑器来打开.我们在处理文档时,可通过格式转换的方式,将ODT转为其他格式,或者将其他格式转为ODT,来获取目标文档.本文,以C#及VB.NET代码展示ODT和Word文档之间相互转换的方法. 程序环
得到XML文档大小的方法

XML文档从格式到大小都是不是确定的.有的可能只有几行,而有的却有好几兆字节.你也许会怀疑是不是需要了解XML文档的大小.而当性能成为首要问题时,知道XML文档大小就是件必须要作的事情了. 从性能角度讲,有两类处理XML文档的方法.批量处理方式需要较短的时间,解析成组的文档.实时方式就是实时的处理文档.批处理方式的性能可以通过在一定时间内处理多少文档来测量,而实时模式的性能也采用类似的测量方式,不过是以处理一个文档需要多长时间来计算的. Scenarios场景想象一下,你有一个实时工作的系统,
如何得到XML文档大小

XML文档从格式到大小都是不是确定的.有的可能只有几行,而有的却有好几兆字节.你也许会怀疑是不是需要了解XML文档的大小.而当性能成为首要问题时,知道XML文档大小就是件必须要作的事情了. 从性能角度讲,有两类处理XML文档的方法.批量处理方式需要较短的时间,解析成组的文档.实时方式就是实时的处理文档.批处理方式的性能可以通过在一定时间内处理多少文档来测量,而实时模式的性能也采用类似的测量方式,不过是以处理一个文档需要多长时间来计算的. Scenarios场景想象一下,你有一个实时工作的系统,比
java中利用Dom4j解析和生成XML文档

一.前言 dom4j是一套非常优秀的Java开源api,主要用于读写xml文档,具有性能优异.功能强大.和非常方便使用的特点. 另外xml经常用于数据交换的载体,像调用webservice传递的参数,以及数据做同步操作等等, 所以使用dom4j解析xml是非常有必要的. 二.准备条件 dom4j.jar 下载地址:http://sourceforge.net/projects/dom4j/ 三.使用Dom4j实战 1.解析xml文档实现思路: <1>根据读取的xml路径,传递给SAX

CentOS下使用LibreOffice实现文档格式的转换方式

相关推荐

随机推荐