几个关于python  Pdf 技巧的分享

目录
  • 1.读取PDF
  • 2.删除pdf的某些页
  • 3.旋转页面
  • 4.合并pdf

前言:

PyPDF2是一个纯Python的开源库,能够分割或合并PDF文件,也可以裁剪或转换PDF文件中的页面。我们还可以使用PyPDF2查看PDF文件的元信息,对PDF文件进行加密等。

PyPDF2是一个开源的库,因此在使用之前需要先安装。

pip install PyPDF2

1.读取PDF

import PyPDF2

reader = PyPDF2.PdfFileReader(open('a.pdf','rb'))
print(reader.getNumPages())

print(reader.getIsEncrypted())
print(reader.getDocumentInfo())
page = reader.getPage(8)
print(page.extractText())

首先导入PyPDF2模块,然后以二进制读模式打开a.pdf文件,并将它传递给PdfFileReader类的初始化函数。PdfFileReader的初始化函数会返回一个PdfFileReader类的对象,我们可以使用这个对象来获取PDF文件的信息。

通过getNumPages函数获取pdf的总页数,通过getIsEncrypted函数获取文件是否加密,通过getDocumentInfo函数获取文件的元数据,通过传递下标给getPage函数的方式获取PDF页面,下标从0开始,与Python内置的字符串、列表和元组等保持一致。通过PageObject类的extractText方法提取页面中的文本。从该方法的返回结果来看,提取PDF文本的效果并不理想。

2.删除pdf的某些页

思路:PyPDF2并不能直接编辑PDF文件,但是我们可以利用PyPDF2从一个PDF文档拷贝需要的页面到另一个PDF文档,通过这种迂回的方式实现编辑PDF的功能。例如删掉a.pdf中的第一页

import PyPDF2

reader = PyPDF2.PdfFileReader(open('a.pdf','rb'))
output = PyPDF2.PdfFileWriter()
for i in range(1,reader.getNumPages()):
    output.addPage(reader.getPage(i))
outputStream = open ("b.pdf","wb")
output.write(outputStream)
outputStream.close()

3.旋转页面

PageObject类中有部分方法可以修改PDF页面,其中rotateClockwiserotateCounterClockwise方法用来旋转页面。这两个方法只接受一个参数,且参数取值必须是90的倍数,表示旋转多少度。

import PyPDF2

reader = PyPDF2.PdfFileReader(open('a.pdf','rb'))
output = PyPDF2.PdfFileWriter()
page = reader.getPage(0)
page.rotateClockwise(180)
output.addPage(page)
outputStream = open ("b.pdf","wb")
output.write(outputStream)
outputStream.close()

4.合并pdf

from PyPDF2 import PdfFileMerger

merger = PdfFileMerger()

a = open("a.pdf",'rb')
b = open("b.pdf",'rb')
c = open("c.pdf",'rb')

merger.append(fileobj = a,pages = (0,3))
merger.merge(position=2,fileobj=b,pages=(0,1))
merger.append(c)
output = open("d.pdf","wb")
merger.write(output)

append方法通过fileobj参数确定要添加的PDF文件,通过pages参数指定要将哪些PDF页面添加到新的PDF文件中,并将要添加的页面添加到merger对象的末尾。merge方法相对于append方法,增加了position参数,我们可以通过position参数指定页面插人的位置。append方法和merge方法的pages参数非常灵活,该参数是一个三元组(start,stop[,step]),分别表示起点、终点和步长。我们可以通过该参数指定合并PDF文件中的页面。

到此这篇关于python使用技巧Pdf的详细内容介绍的文章就介绍到这了,更多相关python使用技巧Pdf介绍内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python使用reportlab生成pdf实例

    目录 Intro 功能点 预览 完整代码 使用场景1:生成文件 使用场景2:web(flask) 总结 Intro 项目中遇到需要 导出统计报表 等业务时,通常需要 pdf 格式.python 中比较有名的就是 reportlab .这边通过几个小 demo 快速演示常用 api.所有功能点 源码 都在 使用场景. 一句话了解:跟 css 差不多,就是不断地对每样东西设置 style,然后把 style 和内容绑定. 功能点 生成文件: 先 SimpleDocTemplate(‘xxx.pdf’

  • python的​PyPDF2实现pdf文件切割和合并

    今天想使用pdf的切分软件实现pdf文件的切分,但是软件需要会员???好吧,,,,又要会员,这么简单的功能能难倒咱们程序员吗.俗话说自给自足丰衣足食,决定使用python自己切分文件. 在百度了一番后,发现大多都是使用 Adobe Acrobat 软件进行剪裁,这完全不 Pythonic,因此又找了用 Python 处理 PDF 文件的方法,最后发现了 PyPDF2 这个库,本文将利用这个库,实现对 PDF 的分割. 首先,你需要通过 pip 安装这个库: pip install PyPDF2

  • 用python将pdf转化为有声读物

    现在看小说已经有了听书这个功能了,但是有时候你想看的书的听书功能收费,这时候可能大家就只能老老实实选择看或者付费听. (还能拿来练英语听力欸嘿嘿) 于是我想到,可不可以用python来实现语言播报呢,说干就干,通过上网搜索,发现python中pyttsx3这个模块可以实现语音播报,而pdfplumber或PyPDF2模块实现pdf转化为文字,我采用的是pdfplumber这个模块. 首先我们先下载模块,可以自己pip install 模块名,或者通过清华源下载(会更快) 清华源地址:https:

  • python爬取微信公众号文章图片并转为PDF

    遇到那种有很多图的微信公众号文章咋办?一个一个存很麻烦,应朋友的要求自己写了个爬虫.2.0版本完成了!完善了生成pdf的功能,可根据图片比例自动调节大小,防止超出页面范围,增加了序号方面查看 #-----------------settings--------------- #url='https://mp.weixin.qq.com/s/8JwB_SXQ-80uwQ9L97BMgw' print('jd3096 for king 2.0 VIP8钻石永久会员版') print('愿你远离流氓软

  • 用python实现PDF解密打印文件

    目录 前言: 1. 单个 PDF 文件转换 2. 多文件转换 总结 前言: 我们在打印一些 PDF 文件的时候可能会遇见加密不能打印的情况,需要提供密码才能打印.如果直接在浏览器中浏览 PDF 文件,它不能调取打印功能.但是我们可以换一个思路转换一下解密文件,就可以正常打印了,方向如下: 我今天要打印一份下面这个: 居然还需要密码,垃圾电.子.协.会. 那就用 Python 来回答这个密码! 搞起. 1. 单个 PDF 文件转换 import pikepdf with pikepdf.open(

  • 2行Python代码实现给pdf文件添加水印

    目录 1. 引言 2.指定水印内容输出到pdf文件 2.1 模块安装 2.2 思路 2.3 代码示例 3.水印内容批量输出到pdf文件 3.1 模块安装 3.2 思路 3.3 代码示例 4.总结 1. 引言 小屌丝:鱼哥,新年快乐! 小鱼:无事不登三宝殿,有啥事,你直说吧… 小屌丝:别说的这么直接,这大过年的… 小鱼:别整没用的,就你那点小心思,我还能不知道. 小屌丝:… 小屌丝:鄙视就鄙视,只要能帮我解决问题,我然你鄙视三连! 小鱼:…还可以这样,那你说吧,啥事? 小屌丝:就是…就是… 小鱼:

  • 几个关于python  Pdf 技巧的分享

    目录 1.读取PDF 2.删除pdf的某些页 3.旋转页面 4.合并pdf 前言: PyPDF2是一个纯Python的开源库,能够分割或合并PDF文件,也可以裁剪或转换PDF文件中的页面.我们还可以使用PyPDF2查看PDF文件的元信息,对PDF文件进行加密等. PyPDF2是一个开源的库,因此在使用之前需要先安装. pip install PyPDF2 1.读取PDF import PyPDF2 reader = PyPDF2.PdfFileReader(open('a.pdf','rb'))

  • Python小技巧练习分享

    目录 1.反转数字 2.类的说明文档 3.设置 Python 文件的编码 4.旋转字符串 5.实现控制台滚动条 6.print 函数直接写入文件 7.合并 2 个列表 1.反转数字 问题场景: 把数字 789 转换为 987. 典型的数字翻转问题. 解决思路: 将数字的百位十位个位拆解出来,就解开了 编码如下: def reverse_number(number): baiwei = int(number/100) shiwei = int(number%100/10) gewei = int(

  • 分享15 超级好用得 Python 实用技巧

    目录 01 all or any 02 dir 03 列表(list)推导式 04 pprint 05 repr 06 sh 07 Type hints 08 uuid 09 wikipedia 10 xkcd 11 zip 12 emoji 13 howdoi 14 Jedi 15 **kwargs 01 all or any Python 语言如此流行的众多原因之一,是因为它具有很好的可读性和表现力. 人们经常开玩笑说 Python 是可执行的伪代码.当你可以像这样写代码时,就很难反驳. x

  • 分享5个python提速技巧,速度瞬间提上来了

    目录 1.跳过迭代对象的开头 2.避免数据复制 3.避免变量中间变量 4.循环优化 5.使用numba.jit 1.跳过迭代对象的开头 string_from_file = """   // Wooden: ...   // LaoLi: ...   //   // Whole: ...   Wooden LaoLi...   """  import itertools   for line in itertools.dropwhile(lamb

  • 分享一些非常实用的Python小技巧

    目录 1.唯一性 2.变位词(相同字母异序词) 3.内存 4.字节大小 5.打印N次字符串 6.首字母大写 7.列表细分 8.压缩 9.计数 10.链式比较 11.逗号分隔 12.元音计数 13.首字母小写 14.展开列表 15.寻找差异 16.输出差异 17.链式函数调用 18. 19.将两个列表转换为字库 20.出现频率最高的元素 21.回文(正反读有一样的字符串) 22.不用if-else语句的计算器 23.随机排序 24.展开列表 1.唯一性 以下方法可以检查给定列表是否有重复的地方,可

  • 初学Python实用技巧两则

    本文记录了初学Python常用的两则实用技巧,分享给大家供大家参考之用.具体如下: 1.可变参数 示例代码如下: >>> def powersum(power, *args): ... '''''Return the sum of each argument raised to specified power.''' ... total = 0 ... for i in args: ... total += pow(i, power) ... return total ... >&

  • 3个 Python 编程技巧

    目录 1.如何按照字典的值的大小进行排序 2.优雅的一次性判断多个条件 3.如何优雅的合并两个字典 今天分享 3 个 Python 编程小技巧,来看看你是否用过? 1.如何按照字典的值的大小进行排序 我们知道,字典的本质是哈希表,本身是无法排序的,但 Python 3.6 之后,字典是可以按照插入的顺序进行遍历的,这就是有序字典,其中的原理,可以阅读为什么 Python3.6 之后字典是有序的. 知道了这一点,就好办了,先把字典的键值对列表排序,然后重新插入新的字典,这样新字典就可以按照值的大小

  • 五个简单有效的Python清理数据脚本分享

    目录 将 PDF 转换为 CSV 合并 CSV 文件 从 CSV 文件中删除重复的行 拆分 CSV 列 合并不同的数据集 最后 将 PDF 转换为 CSV 在机器学习中,我们应该少一些“数据清理”,多一些“数据准备”.当我们需要从白皮书.电子书或其他PDF文档中抓取数据时,这个脚本为我节省了很多时间. import tabula #获取文件 pdf_filename = input ("Enter the full path and filename: ") # 提取PDF的内容 fr

  • python自动裁剪图像代码分享

    本代码可以帮你自动剪切掉图片的边缘空白区域,如果你的图片有大片空白区域(只要是同一颜色形成一定的面积就认为是空白区域),下面的python代码可以帮你自动切除,如果是透明图像,会自动剪切大片的透明部分. 本代码需要PIL模块 pil相关介绍 PIL:Python Imaging Library,已经是Python平台事实上的图像处理标准库了.PIL功能非常强大,但API却非常简单易用. 由于PIL仅支持到Python 2.7,加上年久失修,于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫P

  • Python科学画图代码分享

    Python画图主要用到matplotlib这个库.Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形. 这里有一本电子书供大家参考:<Python图表绘制:matplotlib绘图库入门> 具体来说是pylab和pyplot这两个子库.这两个库可以满足基本的画图需求,而条形图,散点图等特殊图,下面再单独具体介绍. 首先给出pylab神器镇文:pylab.rcParams.update(params).这个函数几乎可以调节图

随机推荐