使用Python操作PDF文件

2026-02-19 20:14:14

从PDF读取文本内容和从已经有的文档生成新的PDF。

需要用到的模块是PyPDF2.

mstamy2/PyPDF2: A utility to read and write PDFs with Python (github.com)

同时，还要关注较新的PyPDF4包，因为它很快就会取代PyPDF2。

claird/PyPDF4: A utility to read and write PDFs with Python (github.com)

也可以看看pdfrw包，它也可以执行许多与PyPDF2相同的操作。

pmaupin/pdfrw: pdfrw is a pure Python library that reads and writes PDFs (github.com)

首先安装PyPDF2，在命令行中运行，由于PyPDF2没有任何依赖，因此安装非常快。

pip install PyPDF2

操作方法

1、从PDF读取文本

PyPDF2无法从pdf文档中提取图像，图表和其他媒体，但是它可以提取文本，并且将文本返回为python字符串。

import PyPDF2
# ===============从pdf中提取文本===========
pdffile = open(r'E:\python让繁琐的工作自动化\13_处理pdf和word文档\data\meetingminutes.pdf', 'rb')  # 读取pdf文件
pdfreader = PyPDF2.PdfFileReader(pdffile)  # 读入到
print(pdfreader.numPages)  # 读取pdf页数======19

获取第一页的内容：

page0 = pdfreader.getPage(0)  #获取第1页，第一页是0
print(page0.extractText())  # 获取第2页的内容，返回的是字符串

内容是

2、解密PDF

某些文档有加密功能，为了防止别人阅读，只有在打开文档的时候提供口令才能阅读。我打开的文件的加密口令是rosebud.

其实在读取一个pdf文件是首先应该确定它是否加密了。如果加密，isEncrypted属性就会返回True.此时就需要口令了。

# 某些pdf文件是加密的，防止别人阅读的，只有打开文档的时候提供口令才能阅读
pdf_reader = PyPDF2.PdfFileReader(open(r'E:\python让繁琐的工作自动化\13_处理pdf和word文档\data\encrypted.pdf','rb'))
print(pdf_reader.isEncrypted)  # 文件是否加密

返回的结果是：

如果这时候不输入口令就获取内容的话。

print(pdf_reader.getPage(0))  # PyPDF2.utils.PdfReadError: file has not been decrypted 文件还没有解锁

会提示出现错误。

此时调用decrypt方法，输入口令，再读取就可以啦。

print(pdf_reader.decrypt('rosebud'))  # rosebud==正确口令显示1，其他显示0
page_obj = pdf_reader.getPage(0)  # 这样才能正确读取
print(page_obj.extractText())

3、创建PDF

PyPDF2可以创建一个新的PDF文件，但是不能将任何文本写入到PDF。其写入PDF的能力，仅限于从其他PDF中拷贝页面、旋转页面、重叠页面和加密文件。后面一一介绍。

4、拷贝页面

# ==========拷贝页面==============
pdffile1 = open(r'E:\python让繁琐的工作自动化\13_处理pdf和word文档\data\meetingminutes.pdf', 'rb')
pdffile2 = open(r'E:\python让繁琐的工作自动化\13_处理pdf和word文档\data\meetingminutes2.pdf', 'rb')
pdf1_reader = PyPDF2.PdfFileReader(pdffile1)
pdf2_reader = PyPDF2.PdfFileReader(pdffile2)
# 创建一个pdf文档，这个只是代表pdf文档的值，并没有创建实际的文档。
pdf_writer = PyPDF2.PdfFileWriter()
# 将文档一页一页的读入到新的文档
for pagenum in range(pdf1_reader.numPages):
    pageobj = pdf1_reader.getPage(pagenum)
    pdf_writer.addPage(pageobj)

for pagenum in range(pdf2_reader.numPages):
    pageobj = pdf2_reader.getPage(pagenum)
    pdf_writer.addPage(pageobj)

# write方法才能真正生成一个文件
pdfoutputfile = open('combin.pdf','wb')
pdf_writer.write(pdfoutputfile)
pdfoutputfile.close()
pdffile1.close()
pdffile2.close()

在对应目录下生成pdf文件

5、旋转页面

利用rotateClockwise()和rotateCounterClockwise()方法PDF页面可以旋转90的整倍数。

pdffile1 = open(r'E:\python让繁琐的工作自动化\13_处理pdf和word文档\data\meetingminutes.pdf', 'rb')
pdfreaders = PyPDF2.PdfFileReader(pdffile1)
page = pdfreaders.getPage(0)  # 获取第一页
page.rotateClockwise(90)  # 第一页旋转90度
# 创建一个新的PDF文档
pdfwriter = PyPDF2.PdfFileWriter()
# 添加内容
pdfwriter.addPage(page)
# 真实创建PDF文件并写入内容
result = open('ratated.pdf','wb')
pdfwriter.write(result)
# 关闭文件
result.close()
pdffile1.close()

点击开PDF文档，结果是：

6、叠加页面

有的时候需要在PDF中添加公司的标志、时间戳或水印。我们用这个库依然可以实现。

# 给指定的页面添加水印、公司标志或者时间戳。
pdffile1 = open(r'E:\python让繁琐的工作自动化\13_处理pdf和word文档\data\meetingminutes.pdf', 'rb')
pdf_reader1 = PyPDF2.PdfFileReader(pdffile1)
# 获取该文档的第一页
first_page = pdf_reader1.getPage(0)
# 打开印有水印的PDF文件
water_pdf = PyPDF2.PdfFileReader(r'E:\python让繁琐的工作自动化\13_处理pdf和word文档\data\watermark.pdf', 'rb')
# 在上一个文档的第一页中加入这个有水印的文件
first_page.mergePage(water_pdf.getPage(0))
# 将读取的内容写入到对象中
pdfwriter = PyPDF2.PdfFileWriter()
pdfwriter.addPage(first_page)

结果是：

7、加密PDF

我们可以对拷贝的页面进行加密。

pdffile1 = open(r'E:\python让繁琐的工作自动化\13_处理pdf和word文档\data\meetingminutes.pdf', 'rb')
pdf_reader1 = PyPDF2.PdfFileReader(pdffile1)
# 将读取的内容写入对象中
pdfwriter = PyPDF2.PdfFileWriter()
for pagenum in range(pdf_reader1.numPages):
    pdfwriter.addPage(pdf_reader1.getPage(pagenum))

# 输入口令
pdfwriter.encrypt('meimei')
# 真正创建PDF文件
result_pdf = open('encry.pdf','wb')
pdfwriter.write(result_pdf)
# 关闭文件
result_pdf.close()

点击生成的PDF文件。

输入密码才可以打开。

到此这篇关于Python操作PDF文件的文章就介绍到这了。希望对大家的学习有所帮助，也希望大家多多支持我们。

Python常见读写文件操作实例总结【文本、json、csv、pdf等】

本文实例讲述了Python常见读写文件操作.分享给大家供大家参考,具体如下: 读写文件读写文件是最常见的IO操作,python内置了读写文件的函数,用法和c是兼容的. 读写文件前,我们必须了解一下,在磁盘上读写文件的功能都是由操作系统提供的,现代操作系统不允许普通的程序直接操作磁盘,所以读写文件就是请求操作系统打开一个文件对象(文件描述),然后,通过操作系统提供的接口从这个文件对象中读取数据(读文件),或者把数据写入这个文件对象(写文件). 1.读文件要以读文件的模式打开一个文件对象,使用p
Python编程快速上手——PDF文件操作案例分析

本文实例讲述了Python PDF文件操作.分享给大家供大家参考,具体如下: 题目如下: 利用第九章的os.walk()函数编写脚本,遍历文件夹中的所有pdf,用命令行提供的命令对这些PDF进行加密,用原来的文件名加上_encrypted.pdf后缀,保存每个加密的PDF.在删除原来的文件之前,尝试用程序读取并解密该文件,确保被正确加密然后编写一个程序,找到文件夹中所有加密的PDF文件,利用提供的口令,创建pdf的解密拷贝,如果口令不对,程序应该打印一条消息, 并继续处理下一个pdf文件思路
Python对PDF文件的常用操作方法详解

目录工具从PDF中提取文本旋转和叠加页面加密PDF文件创建PDF文件补充工具 python3.7 Pycharm PDF PyPDF2 reportlab 从PDF中提取文本 PyPDF2没有办法从PDF文档中提取图像.图表或其他媒体,但它可以提取文本,并将其返回为Python字符串. import PyPDF2 reader = PyPDF2.PdfFileReader('test.pdf') page = reader.getPage(0) print(page.extract
使用Python操作PDF文件

从PDF读取文本内容和从已经有的文档生成新的PDF. 需要用到的模块是PyPDF2. mstamy2/PyPDF2: A utility to read and write PDFs with Python (github.com) 同时,还要关注较新的PyPDF4包,因为它很快就会取代PyPDF2. claird/PyPDF4: A utility to read and write PDFs with Python (github.com) 也可以看看pdfrw包,它也可以执行许多与PyPD
Python操作PDF文件之实现A3页面转A4

目录 1. 需求概述 2. 代码实现 1. 需求概述最近接到一份PDF资料需要打印,奈何页面是如图所示的A3格式的,奈何目前条件只支持打印A4. 我想要把每页的一个大页面裁成两个小的页面,以便打印工作的顺利进行. 遂决定写一段python代码,来实现该功能. 2. 代码实现首先在当前目录下创建一个python文件,并编辑以下代码. 导入相关库后,代码共定义三个函数, 第一个函数将pdf拆分为多个图片,放在自动新建的images1文件夹中. 第二个函数则将每个图片进行切割,切割后的图片放在自动
一文教会你用Python读取PDF文件

目录实战场景 Python PDF 实战编码补充实战场景 Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况: 提取 PDF 中的文字将 PDF 中每页转换为图片 word 转换为PDF PDF生成,编辑,导入导出 PDF在线渲染除了最后一项需要前端配合以外,其余内容都可以直接在 python 端进行实现. 本次实战选择 pdfplumber 库进行学习,可以提前安装该库,不过有一点需要注意,该库主要用于读取 PDF 进行操作,写入和编
Python 操作pdf pdfplumber读取PDF写入Exce

目录 1. Python 操作pdf(pdfplumber读取PDF写入Exce) 1.1 安装pdfplumber模块库 1.2 常用操作 1.2.1 Python读取pdf文件案例 1.2.2 Python读取pdf文件代码 1.2.3 Python读取pdf文件存入Excel代码 1. Python 操作pdf(pdfplumber读取PDF写入Exce) 1.1 安装pdfplumber模块库安装pdfplumber: pip install pdfplumber pdfplumber
使用Python操作excel文件的实例代码

使用的类库 pip install openpyxl 操作实现 •工作簿操作 # coding: utf-8 from openpyxl import Workbook # 创建一个excel工作簿 wb = Workbook() # 打开一个工作簿 wb = load_workbook('test.xlsx') # 保存工作簿到文件 wb.save('save.xlsx') •工作表操作 # 获得当前的工作表对象 ws = wb.active # 通过工作表名称得到工作表对象 ws = wb.
Python生成pdf文件的方法

本文实例演示了Python生成pdf文件的方法,是比较实用的功能,主要包含2个文件.具体实现方法如下: pdf.py文件如下: #!/usr/bin/python from reportlab.pdfgen import canvas def hello(): c = canvas.Canvas("helloworld.pdf") c.drawString(100,100,"Hello,World") c.showPage() c.save() hello() di
python操作xlsx文件的包openpyxl实例

Python扩展库openpyxl,可以操作07版以上的xlsx文件.可以创建工作簿.选择活动工作表.写入单元格数据,设置单元格字体颜色.边框样式,合并单元格,设置单元格背景等等. 需要增加可以颜色进入包安装目录的 your_pthon_path/site-packages/openpyxl/styles 修改colors.py文件下的 COLOR_INDEX = ( '00000000', '00FFFFFF', '00FF0000', '0000FF00', '000000FF', #0-4
如何使用python进行pdf文件分割

这篇文章主要介绍了如何使用python进行pdf文件分割,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下代码如下 import os from pyPdf import PdfFileWriter, PdfFileReader def split(pdf_file, delta, output_dir): if not os.path.exists(output_dir): os.makedirs(output_dir) if not os.p
python操作excel文件并输出txt文件的实例

如下所示: #coding=utf-8 import os import xlrd #excel文件放置在当前路径 path='model.xls' #打开文件 data=xlrd.open_workbook(path) #查询工作表 sheets=data.sheets() #可以通过函数.索引.名称获得工作表. # sheet_1_by_function=data.sheets()[0] # sheet_1_by_index=data.sheet_by_index(0) sheet_1_by