Python word文本自动化操作实现方法解析

2025-04-01 08:47:03

之前介绍了一个Python包 openpyxl ，用于处理 Excel ；而对于 Word 文本时同样也有对应的 Python库 Python-docx，在日常办公中，如果需要处理多个 word 文本，且操作步骤都是重复单调的，我想这个库就可以帮到你

在了解 Python-docx 常用函数之前，需要知道在 Python-docx 各命令所对应 word 各部件，下图所示，

Document 指的是 word 文档；
paragraph 对应段落；
run 对应一句话中的各个字段，样式调整时，一般面向的操作对象都是逐字段进行；

1，安装 Python-docx

通过 pip 工具即可进行安装，在命令行中输入 pip install Python-docx 即可

2，创建或打开 Document

Python-docx 导入包时是以 docx 命令存在的，与 Opencv 的 Python 版本导入方法相似；创建文件、打开文件以 Document() 命令操作，这里操作时需要注意几个点：

1，Document() 命令是基于默认”模板“创建一个空白文档，随后可对文档进行编辑操作，最后没有用 save() 函数存储的话，文档将伴随程序结束同内存一起

2，Document(path) 命令表示打开一个本地已经存在的 docx 文件，path 表示存放目录若不存在则程序报错；
下面代码中，创建了一个空白 docx，赋值给 document

from docx import Document

document = Document()

3，加入一段落

段落作为 docx 文档正文的主要成分，那怎样在创建好的 Document 中加入一段话呢？官方给出了两种方式

1，在文档后面插入

这种方法是比较常见且简单的，命令如下

paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')

方法中将创建好的段落引用指向 paragraph ，表明了光标的位置，后面的一些操作可以借助 paragraph 引用变量来作为定位操作

2，在指定地方的前面插入

文档编辑正常顺序是在末尾进行编辑，但有时在编辑时可能失误少输入一段话或文字，这时就用到在指定位置前面进行插入操作

prior_paragraph = paragraph.insert_paragraph_before('Lorem ipsum')

此命令常用于修正文档，当需要在一段话前面添加一些别的文字时。

4，标题

docx 中会用一、二、三级标题将正文分为几部分，让文本主次感更强；Python-docx 有对应的内置函数供我们使用，内置函数中标题分为主标题和子标题

创建标题的函数方法中，有一个参数 level 可进行修改，若不设定时默认为主标题（leve = 0）；

document.add_heading('The REAL meaning of the universe')

子标题分为 1-9 九个等级，修改参数 level 即可

document.add_heading('The role of dolphins', level=2)

5，分页符

在 Word 中进行文本编辑，想在单独的一个新页面编写文本时，就需要加入一个强制分页符，命令如下

document.add_page_break()

这里需要注意下，加入分页符之后，新页面上编辑的段落样式属性与之前页面段落属性是分隔开的

6，表格

在文档中创建一个 2*2 的表格

table = document.add_table(rows=2, cols=2)

表格中每个单元格可进行文本编辑，颜色填充；对于特定表格而言可通过 row、column 索引来进行定位，这里借助了操作 Excel 表格的思想

cell = table.cell(0, 1)

赋值其文本内容

cell.text = 'parrot, possibly dead'

对一个一个单元格修改操作太麻烦了，可以一次选中指定列，对其单元格数据进行逐个修改

row = table.rows[1]
row.cells[0].text = 'Foo bar to you.'
row.cells[1].text = 'And a hearty foo bar to you too sir!'

table.rows[index] 返回索引为 index 的指定行，根据 .rows和.cols 表示表格的全部行或列是可迭代的，因此可通过 for 循环来访问每一个单元格

for row in table.rows:
for cell in row.cells:
print(cell.text)

因为 .rows 和 .cols 是可迭代的，通过 len() 命令来获取行、列数

row_count = len(table.rows)
col_count = len(table.columns)

除了以上操作之外，还可以向 table 中逐渐添加行、列命令

row = table.add_row()
col = table.add_col()

上面提到了创建表格，单元格修改，创建新行/列，逐行/列迭代，下面用个实例做个简单总结，代码中完成功能如下：

1，item 创建一个 3*3 的元组数据；
2，在 word 中新建一个 table，一行三列；
3，创建好的 table 的表头依次设置为 Qty，SKU，Description；
4，将 item 中的元素，以 table 逐行 3 个的方式创建；

# get table data -------------
items = (
  (7, '1024', 'Plush kittens'),
  (3, '2042', 'Furbees'),
  (1, '1288', 'French Poodle Collars, Deluxe'),
)

# add table ------------------
table = document.add_table(1, 3)

# populate header row --------
heading_cells = table.rows[0].cells
heading_cells[0].text = 'Qty'
heading_cells[1].text = 'SKU'
heading_cells[2].text = 'Description'

# add a data row for each item
for item in items:
  cells = table.add_row().cells
  cells[0].text = str(item.qty)
  cells[1].text = item.sku
  cells[2].text = item.desc

此外，还可修改表格的样式，word 文档中的表格样式这里都可以设定(样式名称可以通过word 文档自有的样式，将鼠标放到样式的缩略图上即可查看)，但需要注意的是，使用样式时需要去掉word软件中样式名字中的空格，例如下面 Office 原样式名字为 Light Shading-Accent1，这里直接把中间空格去掉

table.style = 'LightShading-Accent1'

7，图片

在 python-docx 中添加图片用下面命令即可完成

document.add_picture('image-filename.png')

上面加入的是本地文件 path ，除此之外还可以使用 file-like object，这种格式对于数据库或者网络上的图片读取时时非常方便的

修改图片大小

python-docx 加入图像默认表示的是 native size，正常图片加入时会出现相同图片的一侧出现 4.167 inches 的空白处，大概占比纸张宽度的一半；在获取想要图像大小时，可以指定宽度或高度设为较为方便的单位

from docx.shared import Inches

document.add_picture('image-filename.png', width=Inches(1.0))

8, 应用段落样式

设定段落样式方法有两种，一种创建时就可以设置

document.add_paragraph('Lorem ipsum dolor sit amet.', style='ListBullet')

另一种是创建完之后再再进行设置(这时不需要去掉样式名称中的空格)

paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')
paragraph.style = 'List Bullet'

9，字体加黑并斜体化

对字体做斜体和加黑操作之前，需要理解在一个段落中都做了什么事情，简单来说两部分：

1，一个段落具有全部 block-level formatting ，比如制表符、行高、tabs 等；

2，Character-level formatting ，例如粗体、斜体，应用的是 run对象，在段落中的所有内容必须是一个 run ，且不仅包含一个，
Run 对象同时包含一个 .bold 和.italic 属性，可让你来对其值进行设置

paragraph = document.add_paragraph('Lorem ipsum ')
run = paragraph.add_run('dolor')
run.bold = True
paragraph.add_run(' sit amet.')

上面代码中最后创建的文本格式形如：Lorem ipsum dolor sit amet.

需要注意的是设置 bold 或 italic 时，可以把 .add_run() 命令直接放在右边

paragraph.add_run('dolor').bold = True

# is equivalent to:

run = paragraph.add_run('dolor')
run.bold = True

# except you don't have a reference to `run` afterward

10，字符样式

除了上面加黑、斜体之外、还可定义字符样式( character styles )，定义时加入一行新的 run 对象；例如

paragraph = document.add_paragraph('Normal text, ')
paragraph.add_run('text with emphasis.', 'Emphasis')

上面创建一个文本，结果如下

Normal text,text with emphasis. ；text with emphasis. 部分应用 Emphasis(强调) 的字符格式

上面代码也可改为；

paragraph = document.add_paragraph('Normal text, ')
run = paragraph.add_run('text with emphasis.')
run.style = 'Emphasis'

与段落样式一样，样式名字与 Word UI 里的一样，在 Word 样式管理器中都能找得到！

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

libreoffice python 操作word及excel文档的方法

1.开始.关闭libreoffice服务: 开始之前同步字体文件时间,是因为创建soffice服务时,服务会检查所需加载的文件的时间,如果其认为时间不符,则其可能会重新加载,耗时较长,因此需事先统一时间. 使用时如果需要多次调用,最后每次调用均开启后关闭,否则libreoffice会创建一个缓存文档并越用越大,处理时间会增加. class OfficeProcess(object): def __init__(self): self.p = 0 subprocess.Popen('find /u
python初步实现word2vec操作

一.前言一开始看到word2vec环境的安装还挺复杂的,安了半天Cygwin也没太搞懂.后来突然发现,我为什么要去安c语言版本的呢,我应该去用python版本的,然后就发现了gensim,安装个gensim的包就可以用word2vec了,不过gensim只实现了word2vec里面的skip-gram模型.若要用到其他模型,就需要去研究其他语言的word2vec了. 二.语料准备有了gensim包之后,看了网上很多教程都是直接传入一个txt文件,但是这个txt文件长啥样,是什么样的数据格式呢
Python操作Word批量生成文章的方法

下面通过COM让Python与Word建立连接实现Python操作Word批量生成文章,具体介绍请看下文: 需要做一些会议记录.总共有多少呢?五个地点x7个月份x每月4篇=140篇.虽然不很重要,但是140篇记录完全雷同也不好.大体看了一下,此类的记录大致分为四段.于是决定每段提供四种选项,每段从四选项里随机选一项,拼凑成四段文字,存成一个文件.而且要打印出来,所以准备生成一个140页的Word文档,每页一篇. 需要用到win32com模块(下载链接: http://sourceforge.ne
Python操作word文档插入图片和表格的实例演示

前言图片是Word的一种特殊内容,这篇文章主要介绍了关于Python操作word文档,向里面插入图片和表格的相关内容,下面话不多说了,来一起看看详细的代码实例代码: # -*- coding: UTF8 -*- from docx import Document from docx.shared import Pt doc = Document() # 文件存储路径 path = "C:\\Users\\Administrator\\Desktop\\word文档\\" # 读取文
Python读取word文本操作详解

本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下. 一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的.也就是说python-docx模块会把word文档,文档中的段落.文本.字体等都看做对象,对对象进行处理就是对word文档的内容处理. 二,相关概念如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念. 1,Docume
Python操作Word批量生成合同的实现示例

背景:大约有3K家商家需要重新确认信息并签订合同.合同是统一的Word版本.每个供应商需要修改合同内的金额部分.人工处理方式需要每个复制粘贴且金额要生成大写金额.基于重复工作可偷懒.用Python解救一下. #导入对应数据库 import numpy as np import pandas as pd import os import docx from docx.shared import Pt from docx.oxml.ns import qn #修改项目文件地址 os.chdir(r'
Python操作word常见方法示例【win32com与docx模块】

本文实例讲述了Python操作word常见方法.分享给大家供大家参考,具体如下: 这里介绍两种方式: 使用win32com 使用docx 1. 使用win32com扩展包只对windows平台有效代码: # coding=utf-8 import win32com from win32com.client import Dispatch, DispatchEx word = Dispatch('Word.Application') # 打开word应用程序 # word = Dispatch
python实现在windows下操作word的方法

本文实例讲述了python实现在windows下操作word的方法.分享给大家供大家参考.具体实现方法如下: import win32com from win32com.client import Dispatch, constants w = win32com.client.Dispatch('Word.Application') # 或者使用下面的方法,使用启动独立的进程: # w = win32com.client.DispatchEx('Word.Application') # 后台运行
Python word文本自动化操作实现方法解析

之前介绍了一个Python包 openpyxl ,用于处理 Excel :而对于 Word 文本时同样也有对应的 Python库 Python-docx,在日常办公中,如果需要处理多个 word 文本,且操作步骤都是重复单调的,我想这个库就可以帮到你在了解 Python-docx 常用函数之前,需要知道在 Python-docx 各命令所对应 word 各部件,下图所示, Document 指的是 word 文档: paragraph 对应段落: run 对应一句话中的各个字段,样式调整时
Python文本处理简单易懂方法解析

这篇文章主要介绍了Python文本处理简单易懂方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下自从认识了python这门语言,所有的事情好像变得容易了,作为小白,逗汁儿今天就为大家总结一下python的文本处理的一些小方法. 话不多说,代码撸起来. python大小写字符互换在进行大小写互换时,常用到的方法有4种,upper().lower().capitalize() 和title(). str = "www.dataCASTLE.
Python自动化操作Excel方法详解(xlrd,xlwt)

目录一.Python操作Excel 7大库对比二.xlrd 读取excel操作 1. 打开文件 2. 获取所有表名 3. 指定sheet表 4. 对sheet表的行操作 5. 对sheet表的列操作三.xlwt 写入Excel表操作 1. 写入单个数据 2. 写入多个数据 3. 设置列宽 4. 设置行高 5. 设置单元格风格一.Python操作Excel 7大库对比 Excel是Windows环境下流行的.强大的电子表格应用.无论是在工作中还是学习中我们都几乎在不间断的使用Excel来
python模拟鼠标拖动操作的方法

本文实例讲述了python模拟鼠标拖动操作的方法.分享给大家供大家参考.具体如下: pdf中的书签只有页码,准备把现有书签拖到一个目录中,然后添加自己页签.重复的拖动工作实在无趣,还是让程序帮我实现吧,我可以喝点水,休息一下了 1. Python代码复制代码代码如下: # # _*_ coding:UTF-8 _*_ __author__ = 'wp' import win32api import win32con import win32gui from ctypes import * i
python调用staf自动化框架的方法

1.配置环境支持python2和python3 On Linux, Solaris, or FreeBSD, add the /usr/local/staf/lib directory to your PYTHONPATH, assuming you installed STAF to directory /usr/local/staf. For example: export PYTHONPATH=/usr/local/staf/lib:$PYTHONPATH On Mac OS X, ad
python中删除某个元素的方法解析

这篇文章主要介绍了python中删除某个元素的方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 python中关于删除list中的某个元素,一般有三种方法:remove.pop.del 1.remove: 删除单个元素,删除首个符合条件的元素,按值删除举例说明: >>> str=[1,2,3,4,5,2,6] >>> str.remove(2) >>> str [1, 3, 4, 5, 2,
python读取文本中的坐标方法

利用python读取文本文件很方便,用到了string模块,下面用一个小例子演示读取文本中的坐标信息. import string x , y , z = [] , [] ,[] with open("test.txt") as A: for eachline in A: tmp = eachline.split() x.append(string.atof(tmp[0])) y.append(string.atof(tmp[1])) z.append(string.atof(tmp[
python循环嵌套的多种使用方法解析

这篇文章主要介绍了python循环嵌套的多种使用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下使用循环嵌套来获取100以内的质数 #!/usr/bin/python # -*- coding: UTF-8 -*- num=[]; i=2 for i in range(2,100): j=2 for j in range(2,i): if(i%j==0): break else: num.append(i) print(num) 使用嵌
python函数不定长参数使用方法解析

这篇文章主要介绍了python函数不定长参数使用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 pathon中的函数可以使用不定长参数,可以用参数*args接收单个出现的参数,接收后存成一个元组:用**kwargs接收以键值对形式出现的参数,接收后存丰一个字典.下面的小程序能说明这个问题代码如下: def print_info(*args,**kwargs): for i in args: print(i) for i in kwar
Python Word文件自动化实战之简历筛选

目录简历筛选定义 ReadDoc 类用以读取 word 文件定义 search_word 函数用以筛选 word 文件内容符合想要的简历上一章节我们练习了通过表格和段落获取 word 文件的信息之后,现在来做一个具有实操性的小练习.通过读取简历来筛选出符合招聘条件的简历,接下来看看要如何实现这个小功能. 简历筛选简历相关信息如下: 定义 ReadDoc 类用以读取 word 文件已知条件: 想要查找包含指定关键字的简历(比如 Python.Java) 实现思路: 批量读取每一个 wo

Python word文本自动化操作实现方法解析

相关推荐

随机推荐