用Python提取PDF表格的方法

2025-10-24 01:01:19

大家好，从PDF中提取信息是办公场景中经常需要用到的操作，也是经常又读者在后台问的一个操作。

内容少的话我们可以手动复制粘贴，但如果需要批量提取就可以考虑使用Python，之前我也转载过相关文章，提到主要就是使用pdfplumber库，今天我们再次举例讲解。

通常PDF里的表格分为图片型和文本型。文本型又分简单型和复杂型。本文就针对这三部分举例讲解。

提取简单型表格
提取较为复杂型表格
提取图片型表格

用到的模块主要有

pdfplumber
pandas
Tesseract
PIL

文中出现的PDF材料是在巨潮资讯官网下载的公开PDF文件，主题是关于理财的，相关发布信息等信息如下：

内容总共有6页，后文中的例子会有展示。

一、简单文本类型数据

简单文本类型表格就是一页PDF中只有一个表格，并且表格内容完整可复制，例如我们选定内容为PDF中的第四页，内容如下：

可以看到，该页只有一个表格，下面我们将这个表写入Excel中，先上代码

import pdfplumber as pr
import pandas as pd
pdf = pr.open('关于使用自有资金购买银行理财产品的进展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')

得到的结果如下：

通过与PDF上原表格对比，在内容上是完全一致的，唯一不同的是由于主营业务内容较多，导致显示的不全面，现在来说说这段代码。

首先导入要用到的两个库。在pdfplumber中，open()函数是用来打开PDF文件，该代码用的是相对路径。.open().pages则是获取PDF的页数，打印ps值可以得到如下

pg = ps[3]代表的就是我们所选的第三页。

pg.extract_tables()：可输出页面中所有表格，并返回一个嵌套列表，其结构层次为table→row→cell。此时，页面上的整个表格被放入一个大列表中，原表格中的各行组成该大列表中的各个子列表。若需输出单个外层列表元素，得到的便是由原表格同一行元素构成的列表。

与其类似的是pg.extract_table( )：返回多个独立列表，其结构层次为row→cell。若页面中存在多个行数相同的表格，则默认输出顶部表格；否则，仅输出行数最多的一个表格。此时，表格的每一行都作为一个单独的列表，列表中每个元素即为原表格的各个单元格内容。

由于该页面中只有一个表格，我们需要tables集合中的第一个元素。打印table值，如下：

可以看到在上述中是存在\n这种没不要的字符，它的作用其实是换行但我们在Excel中是不需要的。所以需要剔除它，用代码中的for循环与replace函数将控制替换成空格(即删除\n)。观察table是一个装有2个元素的列表。

最后df1 = pd.DataFrame(table[1:],columns = table[0])这段代码的作用就是创建一个数据框，将内容放到对应的行列中。

本代码只是简单将数据存入到Excel，如果你需要进一步对样式进行调整，可以使用openpyxl等模块进行修改。

二、复杂型表格提取

复杂型表格即表格样式不统一或一页中有多个表格，以PDF中的第五页为例：

可以看到本页中有两个大的表格，并且细看的话，其实是4个表格，按照简单型表格类型提取方法，得到的效果如下：

可以看到，只是将全部表格文本提取出来，但实际上第一个表格又细分为两个表，所以需要我们进一步修改，将这张表再次拆分！例如提取上半部分代码如下：

import pdfplumber as pr
import pandas as pd
pdf = pr.open('关于使用自有资金购买银行理财产品的进展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影响.xlsx') as i:
    df1.to_excel(i,sheet_name='资产', index=False, header=True) #放入资产数据
    df2.to_excel(i,sheet_name='营业',index=False, header=True) #放入营业数据

这段代码在简单型表格提取的基础上进行了修改，第十四行代码的作用就是提取另外一个表头的信息，并将他赋值给df2，而后对df2进行重命名操作(用到rename函数)。

打印df2可以看出columns列名和第一行信息重复了，因此我们需要重复刚刚的步骤，利用loc()函数切割数据框。

注意，我们这里用了罕见的pandas.Excelwriter函数套for循环，这个是为了避免直接写入导致的最后数据覆盖原数据，感兴趣可以尝试一下不用withopen这种方法后结果。最终得到的效果如下：

可以看到，现在这个表格就被放在两个sheet中单独展示，当然用于对比放在一张表中也是可以的

说到底复杂型表格的主观性是非常大的，需要根据不同情况进行不同处理，想写出一个一劳永逸的办法是比较困难的！

三、图片型表格提取

最后也是最难处理的就是图片型表格，经常有人会问如何提取图片型PDF中的表格/文本等信息。

其实本质上就是提取图片，之后如何对图片进一步处理提取信息就与Python提取PDF表格这个主题没有太大关系了！

这里我们也简单进行介绍，也就是先提取图片再进行OCR识别提取表格，在Python中可以使用Tesseract库，首先需要pip安装

pip install pytesseract

在Python中安装完这个库之后我们需要安装exe文件以在后面代码用到。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下载安装完即可，注意目前如果按照正常步骤安装的话是不会识别中文的，所以需要安装简体中文语言包，下载地址为https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata，将其放到Tesseract-OCR的tessdata目录下即可。

接下来我们使用一个简单的图片型pdf如下：

第一步，提取图片，这里使用在GUI办公自动化系列中的图片提取软件来提取PDF中的图片，得到如下图片：

接着执行下方代码识别图片内容

import pytesseract
from PIL import Image
import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
tiqu = pytesseract.image_to_string(Image.open('图片型.jpg'))
print(tiqu)
tiqu = tiqu.split('\n')
while '' in tiqu:    #不能使用for
  tiqu.remove('')
  first = tiqu[:6]
  second = tiqu[6:12]
  third =  tiqu[12:]
  df = pd.DataFrame()
  df[first[0]] = first[1:]
  df[second[0]] = second[1:]
  df[third[0]] = third[1:]
#df.to_excel('图片型表格.xlsx')  #转为xlsx文件

我们的思路是用Tesseract-OCR来解析图片，得到一个字符串，接着对字符串运用split函数，把字符串变成列表同时删除\n。

接着可以发现我们的列表里还存在空格，这时我们用while循环来删除这些空字符，注意，这里不能用for循环，因为每次删除一个，列表里的元素就会前进一个，这样会删不完全。最后就是用pandas把这些变成数据框形式。最终得到的效果如下：

可以看到，该图片型表格内容被完美解析与处理！当然能轻松搞定的原因也与这个表格足够简单有关，在真实场景中的图片可能会有更复杂的干扰因素，而这就需要大家在处理的同时自行找到一个最合适的办法！

以上就是用Python提取PDF表格的方法的详细内容，更多关于Python提取PDF表格的资料请关注我们其它相关文章！

Python提取PDF内容的方法(文本、图像、线条等)

1.安装PDFminer3k 使用pip 命令安装 pip install pdfminer3k 2.编写测试你可以在这里获得官方参考:PDFMiner 如果你不喜欢看英文的官方文档,这里的翻译也许对你有帮助:中文PDFMiner文档下面的程序,我拓展了官方给出的例子,你可以通过这个例子统计出来你的pdf文件一共包含哪些内容,比如文本框,曲线,图片等 #!/usr/bin/python # -*- coding: utf-8 -*- __author__ = 'yooongchun' imp
基于Python快速处理PDF表格数据

我们有下面一张PDF格式存储的表格,现在需要使用Python将它提取出来. 使用Python提取表格数据需要使用pdfplumber模块,打开CMD,安装代码如下: pip install pdfplumber 安装完之后,将需要使用的模块导入 import pdfplumberimport pandas as pd 然后打开PDF文件 # 使用with语句打开pdf文件 with pdfplumber.open("D:\\python\\cai\\yq.pdf") as pdf: #
Python 用三行代码提取PDF表格数据

从 PDF 表格中获取数据是一项痛苦的工作.不久前,一位开发者提供了一个名为 Camelot 的工具,使用三行代码就能从 PDF 文件中提取表格数据. PDF 文件是一种非常常用的文件格式,通常用于正式的电子版文件.它能够很好的将不同的排版格式固定下来,形成版面清晰且美观的展示效果.然而,对于想要从 PDF 中提取信息的人们来说,PDF 是个噩梦,尤其是表格. 大量的学术报告.论文.分析文章都使用 PDF 展示其中的表格数据,但是对于如果想要直接从表格中复制数据则会非常麻烦.不久前,有一位开发者
python实现PDF中表格转化为Excel的方法

这几天想统计一下<中国人文社会科学期刊 AMI 综合评价报告(2018 年):A 刊评价报告>中的期刊,但是只找到了该报告的PDF版,对于表格的编辑不太方便,于是想到用Python将表格转成Excel格式. 看过别人写的博客,发现Python解析PDF有以下四种方式: -pdfminer:擅长文字的解析,把表格解析成普通的文本,没有格式: -pdf2html:把pdf解析成html,但html的标签并没有规律,解析一个表格还可以,多个表格的话不太好提取: -tabula:对于简单的表格,即单元
python如何提取英语pdf内容并翻译

本文实例为大家分享了python提取英语pdf内容并翻译的具体代码,供大家参考,具体内容如下前期准备工作: 翻译接口: 调用的是百度翻译的api(注册后,每个月有2百万的免费翻译字符数.) pdfminer3k: pdfminer3k是pdfminer的Python 3端口. PDFMiner是一种从PDF文档中提取信息的工具. 与其他PDF相关工具不同,它完全专注于获取和分析文本数据. PDFMiner允许获取页面中文本的确切位置,以及字体或线条等其他信息. 它包括一个PDF转换器,可以将P
python从PDF中提取数据的示例

01 前言数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了解如何从pdf文件中提取数据,并将数据转换为诸如"csv"之类的格式,以便用于分析或构建模型. 在本文中,我们将重点讨论如何从pdf文件中提取数据表.类似的分析可以用于从pdf文件中提取其他类型的数据,如文本或图像.我们将说明如何从pdf文件中提取数据表,然后将其转换为适合于进一步分
Python读取pdf表格写入excel的方法

背景今天突然想到之前被要求做同性质银行的数据分析.妈耶!十几个银行,每个银行近5年的财务数据,而且财务报表一般都是 pdf 的,我们将 pdf 中表的数据一个个的拷贝到 excel 中,再借助 excel 去进行求和求平均等聚合函数操作,完事了还得把求出来的结果再统一 CV 到另一张表中,进行可视化分析- 当然,那时风流倜傥的老Amy 还熟练的玩转着 excel ,也是个秀儿~ 今天就思索着,如果当年我会 Python 是不是可以让我成为班级最靓的崽!用技术占领高地,HHH,所以今天我来了,
python基于pdfminer库提取pdf文字代码实例

安装pdfminer 库 windows 下安装pdfminer3k pip install pdfminer3k Liunx 下安装pdfminer pip install pdfminer 代码 from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams, LTTextBox
python 三种方法提取pdf中的图片

有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定! 今天就跟大家系统分享几种Python提取 PDF 图片的方法.其实没有非常完美的方法,每种方法提取效率都不是百分之百,因此可以考虑用多种方法进行互补,主要将涉及: 基于 fitz 库和正则搜索提取图片基于 pdf2image 库的两种方法提取图片基于 fitz 库和正则搜索 fitz 是 pymupdf 的子模块,需要先用命令行安装 pymu
用Python提取PDF表格的方法

大家好,从PDF中提取信息是办公场景中经常需要用到的操作,也是经常又读者在后台问的一个操作. 内容少的话我们可以手动复制粘贴,但如果需要批量提取就可以考虑使用Python,之前我也转载过相关文章,提到主要就是使用pdfplumber库,今天我们再次举例讲解. 通常PDF里的表格分为图片型和文本型.文本型又分简单型和复杂型.本文就针对这三部分举例讲解. 提取简单型表格提取较为复杂型表格提取图片型表格用到的模块主要有 pdfplumber pandas Tesseract PIL 文中出现的P
python pdfplumber库批量提取pdf表格数据转换为excel

目录需求一.实现效果图二.pdfplumber 库三.代码实现 1.导入相关包 2.读取 pdf , 并获取 pdf 的页数 3.提取单个 pdf 文件,保存成 excel 4.提取文件夹下多个 pdf 文件,保存成 excel 小结需求想要提取 pdf 的数据,保存到 excel 中.虽然是可以直接利用 WPS 将 pdf 文件输出成 excel,但这个功能是收费的,而且如果将大量pdf转excel的时候,手动去输出是非常耗时的.我们可以利用 python 的三方工具库 pdfpl
python用pdfplumber提取pdf表格数据并保存到excel文件中

目录 pdfplumber操作pdf文件一.pdfplumber安装及导入二.pdfplumber基础使用 1.基础知识 2.获取pdf基础信息 3.pdfplumber提取表格数据三.提取pdf表格数据并保存到excel中总结 pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间…)及表格.文本.图片等信息,基本可以满足较为简单的格式转换功能. 一.pdfplumber安装及导入
利用Python提取PDF文本的简单方法实例

目录第一步,安装工具库第二步,编写代码第三步,执行最后的话你好,一般情况下,Ctrl+C 是最简单的方法,当无法 Ctrl+C 时,我们借助于 Python,以下是具体步骤: 第一步,安装工具库 1.tika — 用于从各种文件格式中进行文档类型检测和内容提取 2.wand — 基于 ctypes 的简单 ImageMagick 绑定 3.pytesseract — OCR 识别工具创建一个虚拟环境,安装这些工具 python -m venv venv source venv/bin
详解用Python把PDF转为Word方法总结

先讲一下为啥要写这个文章,网上其实很多这种PDF转化的代码和软件.我一直想用Python做,但是网上搜到的代码很多都不能用,很多是2.7版本的代码,再就是PDF需要用到的库在导入的时候,很多的报错,解决起来特别费劲,而且自从2021年初以来,似乎网上很少有关PDF转化的代码出现了.我在研究了很多代码和pdfminer的用法后,总结了几个方法,目前这几种方法可以解决大多数格式的转化,后面我也专门放了提取PDF表格的代码,文末有高效的免费在线工具推荐. 下面这个是我最最推荐的方法 ,简单高效 ,只要
Python提取PDF指定内容并生成新文件

在之前的Python办公自动化案专题中,我们已经介绍了如何有选择的提取某些页面进行合并. 但是很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,本文就以两个真实需求为例进行讲解. 01需求描述数据是一份有286页的上市公司公开年报PDF,大致如下现在需要利用 Python 完成以下两个需求 " 需求一:提取所有包含战略二字的页面并合并新PDF 需求二:提取所有包含图片的页面,并分别保存为 PDF 文件 " 02前置知识和逻辑梳理 2.1 P
python提取内容关键词的方法

本文实例讲述了python提取内容关键词的方法.分享给大家供大家参考.具体分析如下: 一个非常高效的提取内容关键词的python代码,这段代码只能用于英文文章内容,中文因为要分词,这段代码就无能为力了,不过要加上分词功能,效果和英文是一样的. 复制代码代码如下: # coding=UTF-8 import nltk from nltk.corpus import brown # This is a fast and simple noun phrase extractor (based on
Python生成pdf文件的方法

本文实例演示了Python生成pdf文件的方法,是比较实用的功能,主要包含2个文件.具体实现方法如下: pdf.py文件如下: #!/usr/bin/python from reportlab.pdfgen import canvas def hello(): c = canvas.Canvas("helloworld.pdf") c.drawString(100,100,"Hello,World") c.showPage() c.save() hello() di

用Python提取PDF表格的方法

一、简单文本类型数据

二、复杂型表格提取

三、图片型表格提取

相关推荐

随机推荐