Python3 读取Word文件方式

2025-04-01 18:39:44

我的环境，Windows10，Python3.6.3

查询了很多有关资料，发现都是Python2版本操作Word文件的，所以就写了这篇短小的文章。

一、安装 docx

pip install docx

完了之后，导入：import docx

发现报错：ModuleNotFoundError: No module named ‘exceptions'

说没有 exceptions 这个模块，由于Python3已经取消了这个模块，而 PendingDeprecationWarning 是内置

可以直接使用的，所以我们直接进入文件（这个要看你报错显示的路径）：

D:\ProgramFiles\Anaconda3\lib\site-packages\docx.py

把 from exceptions import PendingDeprecationWarning 注释掉即可

示例代码：

import docx

def get_docx(file_name):
 d = docx.opendocx(file_name)
 doc = docx.getdocumenttext(d)
 return doc

doc = get_docx('tt.docx')
print(doc) # 输出行数：1075
for d in doc[:5]:
 print(d) # 打印前5行

'''输出：
一、补益之剂
1．四君子汤
四君子汤中和义，参术茯苓甘草比
益以夏陈名六君，祛痰补气阳虚饵
除却半夏名异功，或加香砂胃寒使
'''

以上这篇Python3 读取Word文件方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

Python使用python-docx读写word文档

python-docx库可用于创建和编辑Microsoft Word(.docx)文件. 官方文档:链接地址备注: doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于Office Open XML标准的压缩文件格式,比 doc文件所占用空间更小.docx格式的文件本质上是一个ZIP文件,所以其实也可以把.docx文件直接改成.zip,解压后,里面的 word/document.xml包含了Word文档的大部分内容,图片文件则保存在word/me
使用python批量读取word文档并整理关键信息到excel表格的实例

目标最近实验室里成立了一个计算机兴趣小组倡议大家多把自己解决问题的经验记录并分享就像在CSDN写博客一样虽然刚刚起步但考虑到后面此类经验记录的资料会越来越多所以一开始就要做好模板设计(如下所示) 方便后面建立电子数据库从而使得其他人可以迅速地搜索到相关记录据说"人生苦短,我用python" 所以决定用python从docx文档中提取文件头的信息然后把信息更新到一个xls电子表格中,像下面这样(直接po结果好了) 而且点击文件路径可以直接打开对应的文件(含超链接) 代码
Python读写docx文件的方法

Python读写word文档有现成的库可以处理.我这里采用 python-docx.可以用pip install python-docx安装一下. 这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据.所以doc格式得另找其他库处理,doc格式不是基于xml的. 帮助文档:http://python-docx.readthedocs.org/en/latest/ 1.新建或打开文件.这个比较简单用docx的Document类,若指定路径则是打开文档:若没有指定路径则是
Python读取word文本操作详解

本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下. 一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的.也就是说python-docx模块会把word文档,文档中的段落.文本.字体等都看做对象,对对象进行处理就是对word文档的内容处理. 二,相关概念如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念. 1,Docume
python实现生成Word、docx文件的方法分析

本文实例讲述了python实现生成Word.docx文件的方法.分享给大家供大家参考,具体如下: http://python-docx.readthedocs.io/en/latest/index.html 生成word的利器! 一.快速开始 from docx import Document document = Document() 1.段落加一个段落,下面paragraph 是前面内容的光标指向,后面再该处插入一句话. paragraph = document.add_paragraph
Python3 读取Word文件方式

我的环境,Windows10,Python3.6.3 查询了很多有关资料,发现都是Python2版本操作Word文件的,所以就写了这篇短小的文章. 一.安装 docx pip install docx 完了之后,导入:import docx 发现报错:ModuleNotFoundError: No module named 'exceptions' 说没有 exceptions 这个模块,由于Python3已经取消了这个模块,而 PendingDeprecationWarning 是内置可以直
python3读取csv文件任意行列代码实例

这篇文章主要介绍了python3读取csv文件任意行列代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下读取每一行 reader = csv.reader(f) 此时reader返回的值是csv文件中每行的列表,将每行读取的值作为列表返回 #读取每一行 filename='D:\\file_information1.csv' import csv with open(filename,newline = '',encoding = 'ut
Java中使用Apache POI读取word文件简单示例

Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. 1.读取word 2003及word 2007需要的jar包读取 2003 版本(.doc)的word文件相对来说比较简单,只需要 poi-3.5-beta6-20090622.jar 和 poi-scratchpad-3.5-beta6-20090622.jar 两个 jar 包即可, 而 2007 版本(.docx)就麻烦多,我说的这个麻烦不
Python3读取zip文件信息的方法

本文实例讲述了Python3读取zip文件信息的方法.分享给大家供大家参考.具体实现方法如下: 该程序接受一个字符串,其内容是一个zip文件,需要读取这个zip文件中的信息 import zipfile class zip_string(zipfile.ZipFile): def __init__(self, data_string): zipfile.ZipFile.__init__(self, data_string) zstr = zip_string('d:/中华十大名帖.zip') f
Python3读取UTF-8文件及统计文件行数的方法

本文实例讲述了Python3读取UTF-8文件及统计文件行数的方法.分享给大家供大家参考.具体实现方法如下: ''''' Created on Dec 21, 2012 Python 读取UTF-8文件统计文件的行数目 @author: liury_lab ''' # -*- coding: utf-8 -*- import codecs # 对较小的文件,最简单的方法是将文件读入一个行列表中, # 然后计算列表的长度即可 count = len(codecs.open('d:/FreakOu
使用Java读取Word文件的简单例子分享

java读取word文档时,虽然网上介绍了很多插件poi.java2Word.jacob.itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用):java2Word.jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄:itxt好像写很方便但是我查了好久资料没有见到过关于读的好办法.经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,
python3读取excel文件只提取某些行某些列的值方法

今天有一位同学给了我一个excel文件,要求读取某些行,某些列,然后我试着做了一个demo,这里分享出来,希望能帮到大家: 首先安装xlrd: pip3 install xlrd 然后上代码: import numpy as np import xlrd data = xlrd.open_workbook('LifeTable_16.xlsx') table = data.sheets()[0] # print(table) # nrows = table.nrows #行数 # ncols =
利用POI读取word、Excel文件的最佳实践教程

前言 POI是 Apache 旗下一款读写微软家文档声名显赫的类库.应该很多人在做报表的导出,或者创建 word 文档以及读取之类的都是用过 POI.POI 也的确对于这些操作带来很大的便利性.我最近做的一个工具就是读取计算机中的 word 以及 excel 文件. POI结构说明包名称说明 HSSF提供读写Microsoft Excel XLS格式档案的功能. XSSF提供读写Microsoft Excel OOXML XLSX格式档案的功能. HWPF提供读写Microsoft Word
Python自动化办公之Word文件内容的读取

目录前言利用 python 批量读取文件 word利器之python-docx python-docx 安装 python-docx 之 Document python-docx 之段落内容读取 python-docx 之表格内容读取前言前面几个章节我们学习了对于普通文件的操作,比如说文件的创建.复制粘贴.裁剪粘贴.文件名的重命名.删除等等.另外还学习了一些基本练习,如何查找文件.如何按照内容查找文件等等. 在本章节及后续,将开始学习一些特殊文件的自动化相关操作.如 word.excel
Python Word文件自动化实战之简历筛选

目录简历筛选定义 ReadDoc 类用以读取 word 文件定义 search_word 函数用以筛选 word 文件内容符合想要的简历上一章节我们练习了通过表格和段落获取 word 文件的信息之后,现在来做一个具有实操性的小练习.通过读取简历来筛选出符合招聘条件的简历,接下来看看要如何实现这个小功能. 简历筛选简历相关信息如下: 定义 ReadDoc 类用以读取 word 文件已知条件: 想要查找包含指定关键字的简历(比如 Python.Java) 实现思路: 批量读取每一个 wo

Python3 读取Word文件方式

相关推荐

随机推荐