Python实现为PDF去除水印的示例代码

2025-04-14 19:07:12

前言

为什么做出这个？

就是有时候从网上下载的资料中的pdf有水印，看着不舒服。

比如说我从网上下载的试卷，然后去打印店打印，打印之后水印看着很不舒服，而去水印wps要会员，而我是一个程序员，为什么不做一个呢，何乐而不为。

虽然最后是做出来的，但是还是有限制。

原理

把pdf转化为图片，然后将图片去水印。

图片去水印，是又条件限制的，必须水印的颜色和pdf中文字的颜色的rgb相差很大，然后把水印的颜色改变成背景颜色。

特色

网上很多和我类似的原理去水印，但是都是先pdf转化为图片存起来，然后图片去水印之后，然后把图片拼接成pdf。

而我就不需要中间步骤，我是直接输入pdf文件，输出pdf文件。

成果

安装依赖

Image

pip install pillow

fitz

pip install PyMuPDF

代码

程序处理pdf需要的时间比较久(因为处理的是像素点)，可以先用页数少的pdf进行测试之后再去页数比较多的pdf。

from PIL import Image
import os
import io
import fitz
import time

def single_pdf_clearwater(pdf_path: str):
    pdf = fitz.open(pdf_path)   # 打开pdf目录
    pdf_img = fitz.open()       # 打开空文件，用来存图片pdf
    for page_inf in pdf:
        definition = 3    # 清晰度，感觉输出的pdf不够清晰，可以调大，调大，文件大小也会变大
        matrix = fitz.Matrix(definition, definition)
        img = page_inf.get_pixmap(matrix=matrix).tobytes()
        img = Image.open(io.BytesIO(img))
        width, height = img.size
        for i in range(width):
            for j in range(height):
                if sum(img.getpixel((i, j))) > 600: # 这里的600你需要根据自己的水印的颜色进行更改。
                    img.putpixel((i, j), (255, 255, 255))
        img = img.tobytes()  # = img = np.asarray(img)；img = bytearray(img)
        img = fitz.Pixmap(fitz.csRGB, width, height, img)
        img = img.tobytes()
        img = fitz.open("png", img)
        pdf_bytes = img.convert_to_pdf()
        pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
    if not os.path.exists("output"):
        os.makedirs("output")  # 处理好的pdf存入了output目录下
    pdf_img.save("output/去水印pdf_" + os.path.basename(pdf_path))

def group_pdf_clearwater(path_array: list[str]):
    print("************去水印时间比较久***********")
    for pdf_path in path_array:
        print(pdf_path, "去水印中...")
        single_pdf_clearwater(pdf_path)
    print("完成")

def folder_pdf_files(folder: str) -> list[str]:  # 一个文件夹里面有多少pdf文件
    file_list = []
    for a, b, c in os.walk(folder):
        if b == []:
            for filename in c:
                if filename[-3:].lower() == 'pdf':
                    file_path = os.path.join(a, filename)
                    file_list.append(file_path)
    print(folder, ": 有", len(file_list), "个pdf文件")
    return file_list

if __name__ == '__main__':
    time_start = time.time()
    path_list = folder_pdf_files("pdf的目录")
    group_pdf_clearwater(path_list)
    time_end = time.time()
    print("程序运行时间：", round(time_end - time_start, 2), "秒")

想法

虽然最后实现了，但是有限制。

为了去除保存图片后取图片的中间步骤，我查阅了很多的文献和资料，后面发现只有我最不想看的英文文档才找到了问题的答案。我就感觉，比较偏的点，只有英文文献才有。

因为限制，我在想是不是可以和python-普通pdf的添加水印的逆向思维进行操作，就是把水印图层直接取出来。
如果处理的pdf文件比较多，并且页数很多，程序运行就要很久，我都感觉像深度学习了。

到此这篇关于Python实现为PDF去除水印的示例代码的文章就介绍到这了,更多相关Python PDF去水印内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python去除PDF水印的实现示例

今天介绍下用 Python 去除 PDF (图片)的水印.思路很简单,代码也很简洁. 首先来考虑 Python 如何去除图片的水印,然后再将思路复用到 PDF 上面. 这张图片是前几天整理<数据结构和算法>PDF里的一个截图,带着公众号的水印. 从上图可以明显看到,为了不影响阅读正文,水印颜色一般比较浅.因此,我们可以利用颜色差这个特征来去掉水印.即:用 Python 读取图片的颜色,并将浅颜色部分变白. Python 标准库 PIL 可以获取图片的颜色,Python2 是系统自带的,Pyth
十行Python3代码实现去除pdf文件水印

目录 1.引言 2.代码实战 2.1去除原理 2.2代码解析 2.3代码整合 3.总结 1.引言小屌丝:鱼哥,最近有点不像话了. 小鱼:嗯?? 啥个意思嘛~ 小屌丝:一周了,没分享小知识了. 小鱼:就因为这个?? 小屌丝:那是,我这么爱学习的人. 小鱼:怕是你有什么事情解决不了,想到我了吧? 小屌丝:呵 ~ 笑话 ~ 我能有…什…么…事情… 小鱼:说吧, 小屌丝:这可是你让我说的,我可没主动要问的! 小鱼:说吧,咋还磨磨唧唧了呢小屌丝:我在某站下载的pfd文档,有水印,如何去掉啊? 小鱼:
python为图片和PDF去水印详解

目录安装模块获取图片的 RGB 图片去水印 PDF 去水印图片转为 pdf 总结网上下载的 pdf 学习资料有一些会带有水印,非常影响阅读.比如下面的图片就是在 pdf 文件上截取出来的. 安装模块 PIL:Python Imaging Library 是 python 上非常强大的图像处理标准库,但是只能支持 python 2.7,于是就有志愿者在 PIL 的基础上创建了支持 python 3的 pillow,并加入了一些新的特性. pip install pillow pymupdf
Python实现为PDF去除水印的示例代码

目录前言原理特色成果安装依赖代码想法前言为什么做出这个? 就是有时候从网上下载的资料中的pdf有水印,看着不舒服. 比如说我从网上下载的试卷,然后去打印店打印,打印之后水印看着很不舒服,而去水印wps要会员,而我是一个程序员,为什么不做一个呢,何乐而不为. 虽然最后是做出来的,但是还是有限制. 原理把pdf转化为图片,然后将图片去水印. 图片去水印,是又条件限制的,必须水印的颜色和pdf中文字的颜色的rgb相差很大,然后把水印的颜色改变成背景颜色. 特色网上很多和我类似的原
Python实现对word文档添加密码去除密码的示例代码

代码实现如下: import win32com.client,os,time def word_encryption(path, password): # 若加密保存.docx时,覆盖原文件,则无法成功添加密码.但是保存为另一个文件名,则可以添加密码. # 因此将A存为B,删A,再将B改为A. dirname, tempname = os.path.split(path) path_temp = os.path.join(dirname, tempname) while os.path.exis
利用Python+OpenCV三步去除水印

一.推理原理 1.标定噪声的特征,使用cv2.inRange二值化标识噪声对图片进行二值化处理,具体代码:cv2.inRange(img, np.array([200, 200, 240]), np.array([255, 255, 255])),把[200, 200, 200]~[255, 255, 255]以外的颜色处理为0 2.使用OpenCV的dilate方法,扩展特征的区域,优化图片处理效果 3.使用inpaint方法,把噪声的mask作为参数,推理并修复图片二.推理步骤 1.从源图
Java实现PDF转Word的示例代码(无水印无页数限制)

目录一.前言二.jar破解 1.项目远程仓库配置 2.pom文件引入相关依赖 3.破解代码三.pdf转word 一.前言学习概述:简单的介绍一下本篇文章要讲解的Java知识点学习目标:读者读完这篇文章之后,你希望他掌握你讲解的哪些重要的知识点二.jar破解 1.项目远程仓库配置 aspose-pdf 这个需要配置单独的仓库地址才能下载,不会配置的可以去官网直接下载jar引入项目代码中. <repositories> <repository> <id>Aspo
Python实现邮件的批量发送的示例代码

1 发送文本信息 '''加密发送文本邮件''' def sendEmail(from_addr,password,to_addr,smtp_server): try: msg = MIMEText('你好,来自信息化工程所的问候...', 'plain', 'utf-8') # 文本邮件 # msg = MIMEText('<html><body><h1>你好</h1>' + '<p>send by <a href="http:/
python自动从arxiv下载paper的示例代码

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2020/02/11 21:44 # @Author : dangxusheng # @Email : dangxusheng163@163.com # @File : download_by_href.py ''' 自动从arxiv.org 下载文献 ''' import os import os.path as osp import requests from lxml impor
Python实现12种降维算法的示例代码

目录为什么要进行数据降维数据降维原理主成分分析(PCA)降维算法其它降维算法及代码地址 1.KPCA(kernel PCA) 2.LDA(Linear Discriminant Analysis) 3.MDS(multidimensional scaling) 4.ISOMAP 5.LLE(locally linear embedding) 6.t-SNE 7.LE(Laplacian Eigenmaps) 8.LPP(Locality Preserving Projections) 网
bootstrap模态框嵌套、tabindex属性、去除阴影的示例代码

模态框嵌套在开发中,遇到需要通过点击事件触发第一个模态框,触发后通过事件唤起第二个模态框,并且通过事件触发第三个模态框:即模态框嵌套. 模态框嵌套需要用一个模态框包裹所涉及嵌套的模态框,从而点击触发模态框不会乱掉. HTML代码如下:  <div class="modal fade" id="outermost" tabindex="-1" role="dialog" ari
Android 给图片加上水印的示例代码（支持logo+文字）

本文介绍了Android 给图片加上水印的示例代码(支持logo+文字),分享给大家,具体如下: 现在我们想要往图片上打上水印,该水印应符合这样的需求的: 支持logo+文字: 文字信息支持多行展示: 用户可以选择水印在图片上的生成位置(左上.右上.右下和左下). 粗略的结构图低配版大概就长这样... 水印结构图.png 现在提供这样的一种思路去实现这一个需求,我们可以通过自定义一个view,view的布局中包含logo.公司名称和相关信息,这个view就是我们要打上图片的水印. 这样的一个vi
Qt 使用Poppler实现pdf阅读器的示例代码

开发环境 Qt5.5.1.Qt Creator 3.5.1 Qt实现pdf阅读器和MFC实现pdf阅读器,其实原理都是差不多的. 需要用到Poppler开源库,下载地址如下 https://poppler.freedesktop.org/ 如果只是要在window的gcc下运行的话,可以下载已经编译好的库 https://sourceforge.net/projects/poppler-win32/ 注意:这个是MinGW版本的Qt,也就是运行在GCC环境下的库,里面只包含 *.dll 和 *.

Python实现为PDF去除水印的示例代码

目录

前言

原理

特色

成果

安装依赖

代码

想法

相关推荐

随机推荐