教你用十行node.js代码读取docx的文本

2025-02-20 21:23:52

前言

最近有一个case。需要去解析word文档。有两个需求，一个是将word文档转成PDF，一个是将word文档中的内容按照一定的规范读取到数据库中，去npm仓库找了大概有十几个包，发现主要是通过以下的方式来转换代码。

通过调用系统底层程序（比如说office）的API来转换；
通过模板，替换数据来实现生成PDF；
通过有些免费将word转成PDF的网站来实现将word转成PDF，比如docx-to-pdf；

后来退而求其次，想通过先将docx转成文字，发现了个textract的包。

当然也有缺点，不支持docx中的标题号，不支持图片等文件。

不怕死的我决定自己干这件事情。

介绍

其实docx就是一个zip包，然后封装了一些xml文件。可以直接将docx的包改后缀为.zip来打开观看。

进入word文件夹

里面有几个主要的文件。

document.xml 这个就是文档的主要内容
numbering.xml 这个就是标题号，以及标题号的一些属性
styles.xml 这个就是样式列表

打开document.xml 你就会发现，所有的文本都是用 <w:t>标签包着的。这个就是本文的关键

代码

首先，需要通过npm安装一个能查看zip文件的包：adm-zip；

然后，写下下列代码即可

const fs = require("fs");
const AdmZip = require('adm-zip'); //引入查看zip文件的包
const zip = new AdmZip(filePath); //filePath为文件路径
let contentXml = zip.readAsText("word/document.xml");//将document.xml读取为text内容；
let str = "";
contentXml .match(/<w:t>[\s\S]*?<\/w:t>/ig).forEach((item)=>{
str += item.slice(5,-6)});
fs.writeFile("./2.txt",str,(err)=>{//将./2.txt替换为你要输出的文件路径
if(err)throw err;
});

最近正在用node.js去解析docx的工作。先将最简单的写在上面。回头有空再继续分享

最新更新

之前随手写的代码，今天测试发现用更新后的代码比源代码的效率提升十倍以上。

//原代码
//str += item.replace("<w:t>","").replace("</w:t>","");
//更新代码
str += item.slice(5,-6)

附上测试代码

var str = "<w:t>sdfjpasif aefnmasd;lf asdfsdf</w:t>";
var arr = [];
for(var i=0;i<50000;i++){
 arr.push(str);
}
console.time("replactest");
arr.forEach((item)=>{
 item.replace(/<w:t>/,"").replace(/<\/w:t>/,"");
});
console.timeEnd("replactest");
//replactest: 20.560ms

console.time("replactest2");
arr.forEach((item)=>{
 item.replace(/<\/*w:t>/g,"");
});
console.timeEnd("replactest2");
//replactest2: 14.926ms

console.time("replactest3");
arr.forEach((item)=>{
 item.replace(/(^<w:t>)|(<\/w:t>$)/g,"");
});
console.timeEnd("replactest3");
//replactest3: 14.402ms

console.time("slice");
arr.forEach((item)=>{
 item.slice(5,-6);
});
console.timeEnd("slice");
//slice: 1.718ms

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用node.js能带来一定的帮助，如果有疑问大家可以留言交流。

Linux系统中利用node.js提取Word(doc/docx)及PDF文本的内容

前言想要做全文搜索引擎,则需要将word/pdf等文档内容提取出来.对于pdf有xpdf等一些开源方案. 但Word文档的情况则会复杂一些. 提取PDF文本内容 XPDF是一个免费开源的软件,用于显示PDF文件,并可将pdf转换成文字图片等,同样支持Windows版.在Debian Linux上安装非常简单: apt-get install xpdf 我们这里只使用pdftotext这个功能,直接输入可查看帮助: root@raspberrypi:/var/www# pdftotext pdf
教你用十行node.js代码读取docx的文本

前言最近有一个case.需要去解析word文档.有两个需求,一个是将word文档转成PDF,一个是将word文档中的内容按照一定的规范读取到数据库中,去npm仓库找了大概有十几个包,发现主要是通过以下的方式来转换代码. 通过调用系统底层程序(比如说office)的API来转换: 通过模板,替换数据来实现生成PDF: 通过有些免费将word转成PDF的网站来实现将word转成PDF,比如docx-to-pdf: 后来退而求其次,想通过先将docx转成文字,发现了个textract的包. 当然也有
教你快速搭建Node.Js服务器的方法教程

前言 Node.js 是一个事件驱动 I/O 服务端 JavaScript 环境,也可以理解为服务器端运行的 JavaScript.JS 作为一门编程语言,是运行在称为 JS 运行时的虚拟机中的,而在 I/O 功能上,JS 更多依赖于宿主环境.一般我们遇到的宿主环境主要是浏览器,Node.js 则是在服务器端运行的高速 JavaScript 解释器. 近期遇到一个小型网站需要建立一个简单的 Web 服务器,原本想用 SpringMVC 解决,无奈 Spring 的哲学博大精深,自己才疏学浅,不能
教你如何使用node.js制作代理服务器

下面代码实现的功能是这样的: 首先创建一个HTTP服务器,当服务器接收到客户端的请求后,向"www.taobao.com"网站请求数据,当从该网站接受到的响应数据后,将响应数据发送给客户端. 复制代码代码如下: var http=require("http"); var url=require("url"); var server=http.createServer(function(sreq,sres){ var url_parts=
Webpack 实现 Node.js 代码热替换

这两天为了这个问题, Gitter 上问, Twitter 上问, GitHub 上问, 两天没反应原来写博客的 jlongster 不理我, 我也不知道 Webpack 作者的联系方式最后在 Gitter 上发的消息他似乎看到了, 就粗略地解释了一遍, 醍醐灌顶啊... https://github.com/webpack/docs/issues/45#issuecomment-149793458 Here is the process in short: Compile the serv
教你如何在Node.js中使用jQuery

想要在NodeJs中使用jQuery? 首先,我们得安装jquery, npm install jquery .安装后的版本是 3.1.0 接着,第一感觉我们会使用 var $ = require('jquery') . 将以下代码保存为app.js var $ = require('jquery') $("body").append("<div>TEST</div>"); console.log($("body").ht
8 行 Node.js 代码实现代理服务器

接触 Node.js 已有多年,一直喜欢它的单线程模型和异步IO特性,以及 JavaScript 语言本身的灵活性.同时,JavaScript 前后端通吃,在全栈开发领域具有独特的优势.今天就来看看作为服务端语言的 JavaScript,完成一个简单的代理服务器功能是多么容易. 简单地说,代理服务器就是代理用户访问目标站点的中介服务器.作为前端开发人员,代理的常见用途是跨域访问后台 API.当然,还可以用来科学上网.今天要分享的代码,就是跟科学上网有关. 话不多说,先上 code: var ex
Node.js中读取TXT文件内容fs.readFile()用法

文件: read.js: var fs=require('fs'); fs.readFile('readtxt/demo.txt','utf-8',function(err,data){ if(err){ console.error(err); } else{ console.log(data); } }); 启动运行: Node.js读取文件函数语法如下: fs.readFile(filename,[encoding],[callback(err,data)]) filename(必选),表示
从零开始学习Node.js系列教程二：文本提交与显示方法

本文实例讲述了Node.js文本提交与显示方法.分享给大家供大家参考,具体如下: index.js var server = require("./server"); var router = require("./router"); var requestHandlers = require("./requestHandlers"); var handle = {} handle["/"] = requestHandlers
Node.js实用代码段之正确拼接Buffer

对于初学Node.js框架的开发人员来说,可能认为Buffer模块比较易学.重要性也不是那么突出.其实,Buffer模块在文件I/O和网络I/O中应用非常广泛,其处理二进制的性能比普通字符串性能要高出很多,重要性可谓是举足轻重.下面我们通过一个例程向读者演示一下,使用buf.concat()方法进行拼接的过程. 本例ch04.buffer-concat.js主要代码如下: /** * ch04.buffer-concat.js */ console.info("------ Buffer con
Node.js实用代码段之获取Buffer对象字节长度

我们知道Node.js框架下的Buffer对象能够对二进制数据提供很好的支持,那么获取一个Buffer对象真实的字节长度则是必须要用到的功能了.Node.js框架为开发人员提供了一个Buffer.byteLength()方法,下面我们借助一个官方文档提供的例程向读者演示一下该方法的使用过程. 本例ch04.buffer-byteLength.js主要代码如下: /** * ch04.buffer-byteLength.js */ console.info("------Buffer.byteLe

教你用十行node.js代码读取docx的文本

相关推荐

随机推荐