Python读取word文本操作详解

2025-02-19 06:39:37

本文研究的主要问题时Python读取word文本操作，分享了相关概念和实现代码，具体如下。

一，docx模块

Python可以利用python-docx模块处理word文档，处理方式是面向对象的。也就是说python-docx模块会把word文档，文档中的段落、文本、字体等都看做对象，对对象进行处理就是对word文档的内容处理。

二，相关概念

如果需要读取word文档中的文字（一般来说，程序也只需要认识word文档中的文字信息），需要先了解python-docx模块的几个概念。

1，Document对象，表示一个word文档。
2，Paragraph对象，表示word文档中的一个段落
3，Paragraph对象的text属性，表示段落中的文本内容。

三，模块的安装和导入

需要注意，python-docx模块安装需要在cmd命令行中输入pip install python-docx，如下图表示安装成功（最后那句英文Successfully installed，成功地安装完成，十分考验英文水平。）

注意在导入模块时，用的是import docx。

也真是奇了怪了，怎么安装和导入模块时，很多都不用一个名字，看来是很有必要出一个python版本的模块管理程序python-maven了，本段纯属PS。

四，读取word文本

在了解了上面的信息之后，就很简单了，下面先创建一个D:\temp\word.docx文件，并在其中输入如下内容。

然后写一段程序，代码及输出结果如下：

#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("D:\\temp\\word.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13，每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
 print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
 print("第"+str(i)+"段的内容是："+file.paragraphs[i].text)

运行结果：

================ RESTART: F:/360data/重要数据/桌面/学习笔记/readWord.py ================
段落数:13
啊

我看见一座山

雄伟的大山

真高啊

啊

这座山是！

真的很高！
第0段的内容是：啊
第1段的内容是：
第2段的内容是：我看见一座山
第3段的内容是：
第4段的内容是：雄伟的大山
第5段的内容是：
第6段的内容是：真高啊
第7段的内容是：
第8段的内容是：啊
第9段的内容是：
第10段的内容是：这座山是！
第11段的内容是：
第12段的内容是：真的很高！
>>>

总结

以上就是本文关于Python读取word文本操作详解的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

您可能感兴趣的文章:

Python读取指定目录下指定后缀文件并保存为docx
python解析html提取数据，并生成word文档实例解析
Python复制Word内容并使用格式设字体与大小实例代码
利用python批量修改word文件名的方法示例
用python结合jieba和wordcloud实现词云效果
Python+Wordpress制作小说站
python 出现SyntaxError: non-keyword arg after keyword arg错误解决办法
python批量替换页眉页脚实例代码

利用python批量修改word文件名的方法示例

前言最近不小心把硬盘给格式化了,由于当时的文件没有备份,所以一下所有的文件都没有了,于是只能采取补救措施,用文件恢复软件恢复了一部分的数据出来,但是恢复完毕的文件的文件名全丢了,所有的文件只有代号,如下面的图: 几万个文件这要是手动的改得要改到明年.所以便动手写了一个python的脚本程序来代替这种繁杂的操作. 实现分析想让程序来理解我的word文档里到底是什么内容是不可能的了,但是好在我的word文档内容都有标题,大部分的标题正好就是这个文档的文件名,于是我便打算把文档的标题当作文件名,而
python批量替换页眉页脚实例代码

简介本文分享的实例代码主要通过python语言实现批量替换页眉页脚的操作功能,具体如下. 代码 #!/usr/bin/env python # -*- coding: utf-8 -*- import win32com,os,sys,re from win32com.client import Dispatch, constants # 打开新的文件 suoyou = os.listdir('d:\\daizhuan') #print suoyou for i in suoyou: wenji
Python+Wordpress制作小说站

我用Python和Wordpress建了一个小说站. 下面主要讲一讲搭建过程中所用的技术.主要分为以下几个部分: Wordpress主题的选取小说内容的完善站点的部署微信公众平台的搭建 1.Wordpress主题的选取由于自己对php代码编写不是非常熟悉,直接编写网站很可能会遇到各种安全漏洞.对比目前比较流行的博客框架wordpress.joomla.drupal,最终还是选择受众比较广的wordpress.之后选取了一套小说模板,就这么上马啦~~ 2.小说内容的完善 2.1 数据的抓取
用python结合jieba和wordcloud实现词云效果

0x00 前言突然想做一个漏洞词云,看看哪些漏洞比较高频,如果某些厂商有漏洞公开(比如ly),也好针对性挖掘.就选x云吧(镜像站 http://wy.hxsec.com/bugs.php ).用jieba和wordcloud两个强大的第三方库,就可以轻松打造出x云漏洞词云. github地址: https://github.com/theLSA/wooyun_wordcloud 本站下载地址:wooyun_wordcloud 0x01 爬取标题直接上代码: #coding:utf-8 #Au
python解析html提取数据，并生成word文档实例解析

简介今天试着用ptyhon做了一个抓取网页内容,并生成word文档的功能,功能很简单,做一下记录以备以后用到. 生成word用到了第三方组件python-docx,所以先进行第三方组件的安装.由于windows下安装的python默认不带setuptools这个模块,所以要先安装setuptools这个模块. 安装 1.在python官网上找到 https://bootstrap.pypa.io/ez_setup.py ,把代码保存到本地并执行: python ez_setup.py 2.下载
Python复制Word内容并使用格式设字体与大小实例代码

简介网上流传的部分可以百度关键词"Python"和"word"后查看文章学习,以下内容为个人实践,修正了不能运行出错的情况. 代码示例 import win32com from win32com.client import Dispatch,constants w = win32com.client.Dispatch('Word.Application') # 或者使用下面的方法,使用启动独立的进程: # w = win32com.client.DispatchE
Python读取指定目录下指定后缀文件并保存为docx

最近有个奇葩要求要项目中的N行代码申请专利啥的然后作为程序员当然不能复制粘贴用代码解决.. 使用python-docx读写docx文件环境使用python3.6.0 首先pip安装python-docx pip install python-docx 然后下面是脚本修改目录,这里默认取脚本运行目录下的src文件夹取.cs后缀的所有文件读取并保存为docx 有一点需要注意,如果文件中有中文,请用vscode或者其他编辑器使用utf-8格式打开,看看有没有乱码其中每处理一个文件都会
python 出现SyntaxError: non-keyword arg after keyword arg错误解决办法

python 出现SyntaxError: non-keyword arg after keyword arg错误解决办法前言: 在Python中,这两个是python中的可变参数,*arg表示任意多个无名参数,类型为tuple,**kwargs表示关键字参数,为dict,使用时需将*arg放在**kwargs之前,否则会有"SyntaxError: non-keyword arg after keyword arg"的语法错误 def test(*arg,**kwargs): pr
Python读取word文本操作详解

本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下. 一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的.也就是说python-docx模块会把word文档,文档中的段落.文本.字体等都看做对象,对对象进行处理就是对word文档的内容处理. 二,相关概念如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念. 1,Docume
python处理xml文件操作详解

目录 1.python 操作xml的方式介绍 2.ElementTree模块 3.解析xml格式字符串并获取根节点 4.读取节点内容,getroot() 5.通标标签名直接获取标签(find,findall) 6.全文搜索标签名(类似xpath路径查找标签) 7.修改节点 8.删除节点 9.构建文件方式1 (Element) 方式2 (makeelement) 方式3 1.python 操作xml的方式介绍查看全部包含“三种⽅法: ⼀是xml.dom. * 模块,它是W3CDOMAPI的实现
Python Pandas数据处理高频操作详解

目录引入依赖算法相关依赖获取数据生成df 重命名列增加列缺失值处理独热编码替换值删除列数据筛选差值计算数据修改时间格式转换设置索引列折线图散点图柱状图热力图 66个最常用的pandas数据分析函数从各种不同的来源和格式导入数据导出数据创建测试对象查看.检查数据数据选取数据清理筛选,排序和分组依据数据合并数据统计 16个函数,用于数据清洗 1.cat函数 2.contains 3.startswith/endswith 4.count 5.ge
Python3读取文件的操作详解

目录 1.引言 2. fileinput 2.1 方法介绍 2.2 默认读取 2.3 处理一个文件 2.4 处理批量文件 2.5 读取与备份 2.5 重定向替换 2.6 进阶 3.总结 1.引言小鱼:小屌丝, 这段代码为什么要开两个线程? 小屌丝:因为我要读写文件,还要备份文件,所以就开两个线程了. 小鱼:嗯,想法是对的,但是,还有一种简便的方法, 不需要开两个线程就能搞得定的. 小屌丝:额…难道是with open? 小鱼:不是. 小屌丝:那还有啥呢? 我咋想不起来了. 小鱼:嗯,这个方法很
python读取二进制mnist实例详解

python读取二进制mnist实例详解 training data 数据结构: <br>[offset] [type] [value] [description] 0000 32 bit integer 0x00000803(2051) magic number 0004 32 bit integer 60000 number of images 0008 32 bit integer 28 number of rows 0012 32 bit integer 28 number of co
对Python 数组的切片操作详解

高级特性切片操作:对list,tuple元素进行截取操作,非常简便. L[0:3],L[:3] 截取前3个元素. L[1:3] 从1开始截取2个元素出来. L[-1] 取倒数第一个元素出来. L[-10] 取后10个数 L[10:20] 取前11-20个数 L[:10:2] 取前10个数,每两个取一个 L[::5] 所有数,每5个取一个 L[:] 原样复制一个list tuple,字符串也可以进行切片操作以上这篇对Python 数组的切片操作详解就是小编分享给大家的全部内容了,希望能给大家一
Python读取YAML文件过程详解

这篇文章主要介绍了Python读取YAML文件过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 YAML语法学习手册 Python读取方法: import yaml with open('demo1.yaml', 'r', encoding='utf-8') as f: file_content = f.read() content = yaml.load(file_content, yaml.FullLoader) print(con
Python pandas 列转行操作详解(类似hive中explode方法)

最近在工作上用到Python的pandas库来处理excel文件,遇到列转行的问题.找了一番资料后成功了,记录一下. 1. 如果需要爆炸的只有一列: df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) df Out[1]: A B 0 1 [1, 2] 1 2 [1, 2] 如果要爆炸B这一列,可以直接用explode方法(前提是你的pandas的版本要高于或等于0.25) df.explode('B') A B 0 1 1 1 1 2 2 2 1 3
Python常用图像形态学操作详解

目录腐蚀膨胀开运算与闭运算开运算闭运算梯度运算礼帽与黑帽礼帽黑帽腐蚀在一些图像中,会有一些异常的部分,比如这样的毛刺: 对于这样的情况,我们就可以应用复式操作了.需要注意的是,腐蚀操作只能处理二值图像,即像素矩阵的值只有0(黑色)和255(白色).我们先看看代码和效果: import cv2 import numpy as np img = cv2.imread('dagongren.png') # 腐蚀的代码 kernel = np.ones((3,3),np.uint8
Python入门之字符串操作详解

目录字符串字符串常用操作拼接字符串字符串复制计算字符串的长度截取字符串和获取单个字符字符串包含判断常用字符串方法把字符串的第一个字符大写统计字符串出现的次数检查字符串开头检查字符串结尾大写转小写小写转大写大小写翻转标题化字符串空格删除合并字符串分割字符串将字符串按照行分割判断字符串只是数字判断是空字符字符串填充字符串搜索字符串替换格式化字符串字符串编码转换字符串字符串常用操作拼接字符串拼接字符串需要使用‘+’运算符可完成对多个字符串的