python如何实现word批量转HTML

2025-03-02 07:46:48

今天我们说一下使用python将word内容转换成html文件。下面一起来看一下。

准备工作

使用python类库PyDocX，安装方法（使用pip进行安装），命令如下：

pip install python-docx

类库介绍

python-docx是用于创建和更新Microsoft Word（.docx）文件的Python库。它可以针对word做很多操作。比如打开文件、写入内容、编写内容样式、解析内容、读取内容等等。主要就是针对word做的一款功能库。

说代码

下面一起来说一下代码。首先是做了一个声明的内容，主要是出现过代码工具被网络上的人给进行贩卖，特此说了注释。

1、通过os类库，获取当前目录下的所有文件信息

# 当前目录下的文件
file_path = os.getcwd()
print("当前位置：%s" % file_path)

2、通过函数进行获取数据，并对目录下文件进行判断，只获取.docx类型文档

data = []
for root, dirs, files in os.walk(files_path, topdown=False):
for name in files:
f_p = os.path.join(root, name).replace("\\", "/")
file_type = os.path.splitext(f_p)
if file_type[1] == '.docx':
if " " in file_type[0]:
os.rename(f_p, f_p.replace(" ", ""))
f_p = f_p.replace(" ", "")
data.append(f_p)
return data

这里呢，我们做了一个判断的操作，主要是防止文件名称上出现空格的问题，因为在测试过程中发现了空格的文档名称是否没有办法找到文件的。

3、判断数据情况

if not file_array:
print("此目录下无docx格式word文件")
# 开始转换
print("开始转换")
for v in file_array:
main(v)

如果当前目录下不含有符合的文档，那么程序直接就跳出了，不再向下执行了。

4、开始转换

这里我们使用的是在3中循环调用方法，下面看一下代码

html = PyDocX.to_html(v)
file_name = os.path.splitext(v)
f = open("%s.html" % file_name[0], 'w', encoding="utf-8")
f.write(html)
f.close()

整体来看转换的方法很简单，在类库中已经帮我们做好的功能，只需要简单的调用就可以了。我采用的是保持原有word文件名称来生成html文件。这样方便进行查找。

其实这里也可以不用生成文件的，可以将获取的内容数据直接存入数据库中，在页面直接作出展示。

以上就是python如何实现word批量转HTML的详细内容，更多关于python word转html的资料请关注我们其它相关文章！

python解析html提取数据，并生成word文档实例解析

简介今天试着用ptyhon做了一个抓取网页内容,并生成word文档的功能,功能很简单,做一下记录以备以后用到. 生成word用到了第三方组件python-docx,所以先进行第三方组件的安装.由于windows下安装的python默认不带setuptools这个模块,所以要先安装setuptools这个模块. 安装 1.在python官网上找到 https://bootstrap.pypa.io/ez_setup.py ,把代码保存到本地并执行: python ez_setup.py 2.下载
如何基于Python实现word文档重新排版

介绍舍友从网上下载的word题库文档很乱,手动改了大半天才改了一点,想起python是大名鼎鼎的自动化脚本,于是乎开始了python对word的一顿瞎操作. 分析需求对文档中的内容进行分析,只留下题目,选项,并且题号要从1开始. 编写代码 pip安装python-docx模块读取word文档内容(如果是以.doc后缀的文件需另存为.docx文件!) from docx import Document # 打开文件 srcdocx = Document('src.docx') # 遍历所有段
Python word实现读取及导出代码解析

2个简单的代码,帮你实现word的导出和word的读取功能一:导出word,word中的内容为代码: from docx import Document from docx.enum.text import WD_PARAGRAPH_ALIGNMENT #设置对象居中.对齐等. from docx.enum.text import WD_TAB_ALIGNMENT,WD_TAB_LEADER #设置制表符等 from docx.shared import Inches #设置图像大小 fro
Python实现批量将word转html并将html内容发布至网站的方法

本文实例讲述了Python实现批量将word转html并将html内容发布至网站的方法.分享给大家供大家参考.具体实现方法如下: #coding=utf-8 __author__ = 'zhm' from win32com import client as wc import os import time import random import MySQLdb import re def wordsToHtml(dir): #批量把文件夹的word文档转换成html文件 #金山WPS调用,抢先
在python下实现word2vec词向量训练与加载实例

项目中要对短文本进行相似度估计,word2vec是一个很火的工具.本文就word2vec的训练以及加载进行了总结. word2vec的原理就不描述了,word2vec词向量工具是由google开发的,输入为文本文档,输出为基于这个文本文档的语料库训练得到的词向量模型. 通过该模型可以对单词的相似度进行量化分析. word2vec的训练方法有2种,一种是通过word2vec的官方手段,在linux环境下编译并执行. 在github上下载word2vec的安装包,然后make编译.查看demo-wo
Python基于wordcloud及jieba实现中国地图词云图

热词图很酷炫,也非常适合热点事件,抓住重点,以图文结合的方式表现出来,很有冲击力.下面这段代码是制作热词图的,用到了以下技术: jieba,把文本分词 wordcloud,制作热图 chardet,辨别文件的编码格式,其中中文统一为GB18030,更加的兼容 imageio,提取图片的形状其他:自动识别文件编码,自动识别txt文件,图片文件名与txt文件一致,使用的是四大名著的文本(自行百度),部分中国地图上代码: import os import jieba import wordclou
Pycharm中安装wordcloud等库失败问题及终端通过pip安装的Python库如何添加到Pycharm解释器中(推荐)

这里介绍笔者在学习wordcloud库时安装过程中所遇到的问题和解决方案 1.在Pycharm中安装wordcloud出现的问题如下图所示 2.解决方法:在终端中通过wordcloud安装包安装方式,wordcloud的安装包下载链接:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 选择与自己Python版本想对应的即可,这里笔者Python是3.8的所以选择图中标记的,版本选择不匹配将会安装错误,如下图所示: 下载完成后打开终端通过p
Python操作Word批量生成合同的实现示例

背景:大约有3K家商家需要重新确认信息并签订合同.合同是统一的Word版本.每个供应商需要修改合同内的金额部分.人工处理方式需要每个复制粘贴且金额要生成大写金额.基于重复工作可偷懒.用Python解救一下. #导入对应数据库 import numpy as np import pandas as pd import os import docx from docx.shared import Pt from docx.oxml.ns import qn #修改项目文件地址 os.chdir(r'
如何基于python把文字图片写入word文档

安装代码 pip install python-docx 1.批量化往word文件中添加大批量重复的数据 from docx import Document from docx.enum.text import WD_ALIGN_PARAGRAPH from docx.shared import Pt #磅数 from docx.oxml.ns import qn #中文格式 #以上是docx库中需要用到的部分 import time price = input('请输入今日价格:') comp
python如何实现word批量转HTML

今天我们说一下使用python将word内容转换成html文件.下面一起来看一下. 准备工作使用python类库PyDocX,安装方法(使用pip进行安装),命令如下: pip install python-docx 类库介绍 python-docx是用于创建和更新Microsoft Word(.docx)文件的Python库.它可以针对word做很多操作.比如打开文件.写入内容.编写内容样式.解析内容.读取内容等等.主要就是针对word做的一款功能库. 说代码下面一起来说一下代码.首先是做
Python操作Word批量生成文章的方法

下面通过COM让Python与Word建立连接实现Python操作Word批量生成文章,具体介绍请看下文: 需要做一些会议记录.总共有多少呢?五个地点x7个月份x每月4篇=140篇.虽然不很重要,但是140篇记录完全雷同也不好.大体看了一下,此类的记录大致分为四段.于是决定每段提供四种选项,每段从四选项里随机选一项,拼凑成四段文字,存成一个文件.而且要打印出来,所以准备生成一个140页的Word文档,每页一篇. 需要用到win32com模块(下载链接: http://sourceforge.ne
Python快速优雅的批量修改Word文档样式

需求描述手上现有若干份财务分析报告的Word文档,如下: 每一份Word文档中的内容如下: 为了方便后续审阅,需要将所有文档中所有含有资金的语句标红加粗,如图所示步骤分析和前置知识为了解决这个需求简单复习一下相关知识.Word文档一般而言由文档(document) - 段落(paragraph) - 文字块(run) 三级结构组成: 从需求反馈中可以看出,本质上我们需要做的就是对所有含有资金的文字块Run进行样式调整因此,本需求的逻辑如下: 1.创建一个空文件夹(用于存放修改后的财务报告
用python处理MS Word的实例讲解

使用python工具读写MS Word文件(docx与doc文件),主要利用了python-docx包.本文给出一些常用的操作,并完成一个样例,帮助大家快速入手. 安装 pyhton处理docx文件需要使用python-docx 包,可以利用pip工具很方便的安装,pip工具在python安装路径下的Scripts文件夹中 pip install python-docx 当然你也可以选择使用easy_install或者手动方式进行安装写入文件内容此处我们直接给出一个样例,根据自己的需要摘取有
Python 自动化修改word的案例

前言利用Python docx模块,可以很方便地打开和修改Word 2007及以后的文档.本文简单地介绍了如何使用python修改word文档中的内容. 例子与代码 word文档的内容是一封表扬信,内容见下图: 表扬信.png 现在需要通过python对,"表扬信.docx"文档进行修改,需要修改的地方已在图中标记出. 1.第一个箭头处,首行缩进2字符 2.第二个箭头处,对段落进行左缩进2字符,并添加"向小z同学学习!" 3.第三个和第四个箭头处,进行右对齐,并右
python用faker库批量生成假数据

楔子我们平时在做测试的时候,经常会使用一些假数据,而Python中有一个包叫faker(不是打LOL的那个),专门用来生成假数据,并且生成的假数据非常逼真,下面我们就来看一下. faker使用方法基本使用 faker使用起来非常简单,我们看一下就知道了. from faker import Faker # 导入Faker这个类, 实例化即可 fake = Faker(locale="zh_CN") # 然后调用里面的方法即可生成相应的假数据 print(fake.name()) #
运用Python巧妙处理Word文档的方法详解

目录工具生成Word案例读取操作word文档总结工具 python3.7 Pycharm Excel python-docx 生成Word案例创建一个demo.doc文档,代码如下: from docx import Document from docx.shared import Cm,Pt from docx.document import Document as Doc #构建doc对象 document = Document() #操作文档标题 document.add_he
Python遍历目录并批量更换文件名和目录名的方法

本文实例讲述了Python遍历目录并批量更换文件名和目录名的方法.分享给大家供大家参考,具体如下: #encoding=utf-8 #author: walker #date: 2014-03-07 #summary: 深度遍历指定目录,并将子目录和文件名改为小写 #注意,此程序只针对windows,windows下文件(夹)名不区分大小写 import os import os.path import shutil #读入指定目录并转换为绝对路径 rootdir = raw_input('ro
Python实现文件内容批量追加的方法示例

本文实例讲述了Python实现文件内容批量追加的方法.分享给大家供大家参考,具体如下: #coding:utf-8 import os #-------代码段一 #获取当前文件夹 filePath = os.getcwd() #获取当前文件列表 fileNameList = os.listdir(filePath) fileDirList = [] #获取文件路径列表 for fileName in fileNameList: fileDirList.append(os.path.join(fi

python如何实现word批量转HTML

相关推荐

随机推荐