如何基于Python代码实现高精度免费OCR工具

2025-04-12 16:49:00

近期Github开源了一款基于Python开发、名为Textshot的截图工具，刚开源不到半个月已经500+Star。

这两天抽空看了一下Textshot的源码，的确是一个值得介绍的项目。

相对于大多数OCR工具复杂工程、差强人意的效果，Textshot具有明显的优势，

项目简单
技术点丰富

项目简单

Textshot整个项目只有1个Python文件、139行代码，没有复杂的第三方库应用，也不涉及过多后端算法的调用。

技术点丰富

Textshot这个项目虽然只有短短的139行代码，但是，却涉及Python中多个方面的知识应用，

UI开发
截图工具开发
后端引擎调用

通过这短短的项目，你不仅可以了解如何利用PyQt5实现一个用户界面，还可以学会如何使用pyscreenshot开发一款自己的截图工具。此外，还能够学会后端tesseract的调用。

换句话说，这短短的139行代码囊括了前端至后端的整个流程，而且涉及到截图和OCR两款工具的衔接。因此，Textshot虽然工程不大，却是一个非常完备、值得学习的项目。

本文就来剖析这个项目的源代码，教你一步一步实现自用且永久免费的截图&OCR工具！

tesseract

目前OCR工具数不胜数，但是大多数都是在相同的后端算法上面进行了不同的封装而已。而真正在OCR核心做的较好、值得大书特书的，那么一定非tesseract莫属

tesseract早在1985就已经开始由HP实验室开始研发，而在1995年更是被评为最为准确的3款OCR工具之一。此后，tesseract被开源，经过Google对其不断的进行优化和升级，它目前已经成为OCR方面一款标杆性的工具。很多开源或者付费的OCR工具，都是直接调用tesseract或者对其进行稍许优化。

而今天介绍的Textshot就是直接调用tesseract后端引擎进行OCR识别。因此，Textshot只是实现了一款截图工具，起到前后端的串联作用，在OCR识别算法方面并没有做任何工作。

tesseract安装

由于Textshot的OCR识别需要调用tesseract后端引擎，所以，首先需要安装tesseract。

Windows版安装可以直接访问下载链接[1].

Mac下可以使用Homebrew进行安装，

brew install tesseract　

Textshot

Textshot是一款截图识别文字的OCR工具，因此，它主要涉及2个环境，

截图

OCR识别

Textshot首先通过截图获取需要进行文字识别的图像，然后对这副图像进行OCR文字识别，输出识别结果。

前面已经介绍了，Textshot的OCR识别阶段调用的是tesseract，所以只需要1行代码即可完成。

因此，Textshot的工作主要是围绕前端窗口和截图工具的实现方面。

截图工具

截图工具是我们经常会用到的一种工具，如何实现一款截图工具？

很多人会把它想的非常复杂，其实，Python中有很多可以实现截图的库或者函数，例如，pyscreenshot或者pillow中的ImageGrab函数，它的调用方式如下，

shot = ImageGrab.grab(bbox=(x1, y1, x2, y2))

也就是说，我们只需要把鼠标框选的起点和终点坐标传给grab方法就可以实现截图功能。

那么，现在问题就转化为如何获取鼠标框选的起点和终点？

Textshot通过调用PyQt5并继承QWidget来实现鼠标框选过程中的一些方法来获取框选的起点和终点。

Textshot继承和重写QWidget方法主要包括如下几个，

keyPressEvent(self, event)：键盘响应函数
paintEvent(self, event)：UI绘制函数
mousePressEvent(self, event)：鼠标点击事件
mouseMoveEvent(self, event)：鼠标移动事件
mouseReleaseEvent(self, event)：鼠标释放事件

可以看出，上面重写的方法以及囊括了截图过程中涉及的各个动作，

点击鼠标
拖动、绘制截图框
释放鼠标

class Snipper(QtWidgets.QWidget):
  def __init__(self, parent=None, flags=Qt.WindowFlags()):
    super().__init__(parent=parent, flags=flags)

    self.setWindowTitle("TextShot")
    self.setWindowFlags(
      Qt.FramelessWindowHint | Qt.WindowStaysOnTopHint | Qt.Dialog
    )

    self.is_macos = sys.platform.startswith("darwin")
    if self.is_macos:
      self.setWindowState(self.windowState() | Qt.WindowMaximized)
    else:
      self.setWindowState(self.windowState() | Qt.WindowFullScreen)

    self.setStyleSheet("background-color: black")
    self.setWindowOpacity(0.5)

    QtWidgets.QApplication.setOverrideCursor(QtGui.QCursor(QtCore.Qt.CrossCursor))

    self.start, self.end = QtCore.QPoint(), QtCore.QPoint()

  def keyPressEvent(self, event):
    if event.key() == Qt.Key_Escape:
      QtWidgets.QApplication.quit()

    return super().keyPressEvent(event)

  def paintEvent(self, event):
    if self.start == self.end:
      return super().paintEvent(event)

    painter = QtGui.QPainter(self)
    painter.setPen(QtGui.QPen(QtGui.QColor(255, 255, 255), 3))
    painter.setBrush(QtGui.QColor(255, 255, 255, 100))

    if self.is_macos:
      start, end = (self.mapFromGlobal(self.start), self.mapFromGlobal(self.end))
    else:
      start, end = self.start, self.end

    painter.drawRect(QtCore.QRect(start, end))
    return super().paintEvent(event)

  def mousePressEvent(self, event):
    self.start = self.end = QtGui.QCursor.pos()
    self.update()
    return super().mousePressEvent(event)

  def mouseMoveEvent(self, event):
    self.end = QtGui.QCursor.pos()
    self.update()
    return super().mousePressEvent(event)

  def mouseReleaseEvent(self, event):
    if self.start == self.end:
      return super().mouseReleaseEvent(event)

    x1, x2 = sorted((self.start.x(), self.end.x()))
    y1, y2 = sorted((self.start.y(), self.end.y()))

然后启动截图界面，

QtCore.QCoreApplication.setAttribute(Qt.AA_DisableHighDpiScaling)
app = QtWidgets.QApplication(sys.argv)
window = QtWidgets.QMainWindow()
snipper = Snipper(window)
snipper.show()

用户拖动、框选窗口，会获取窗口的起点和终点的坐标，这时候可以调用下面语句进行截图，获取需要OCR识别的文本图像，

shot = ImageGrab.grab(bbox=(x1, y1, x2, y2))　　

OCR文字识别

通过ImageGrab.grab截取到文本图像shot，下一步就是要把图像内容输入给后端的tesseract引擎，让它把图像转化为字符串

result = pytesseract.image_to_string(img, timeout=2, lang=(sys.argv[1] if len(sys.argv) > 1 else None))

到这里，就实现了一款准确度高、永久免费的OCR工具。

回顾一下Textshot的项目，我们会发现截图坐标范围内的图像、OCR识别只需要2行代码，大多数都是在围绕获取窗口起点和终点坐标在开发。换句话说，Textshot这个项目对OCR核心部分并没有做任何更改，只是在产品包装方面做了一些巧妙的工作。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

如何使用Python进行OCR识别图片中的文字

朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使用. OCR1,全称Optical character recognition,或者optical character reader,中文译名叫做光学文字识别.它是把图像文件中的手写文本,打印文本转换为机器编码文本的一种方法. OCR技术广泛用于识别打印纸张中的文字数据 -- 比如护照,支票,银行声明,收据,统计表单,邮件等.OCR的早期版本,需要对图片中的每个文字都
初探利用Python进行图文识别(OCR)

话说什么是OCR????? 简介 OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据.报刊.书籍.文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术.可应用于银行票据.大量文字资料.档案卷宗.文案的录入和处理领域.适合于银行.税务等行业大量票据表格的自动扫描识别及长期存储.相对一般文本,通常以最终识别率.识别速度.版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依
Python图像处理之图片文字识别功能（OCR)

OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制. Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司).Tesseract 是目前公认最优秀.最精确的开源OCR 系统. 除了极高的精确度,Tesseract 也具有很高的灵活性.它可
python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法

1.安装Pillow pip install Pillow 2.安装tesseract-ocr github地址: https://github.com/tesseract-ocr/tesseract 或本地下载地址:https://www.jb51.net/softs/538925.html windows: The latest installer can be downloaded here: tesseract-ocr-setup-3.05.01.exe and tesseract-oc
详解Python安装tesserocr遇到的各种问题及解决办法

Tesseract的安装及配置在Python爬虫过程中,难免遇到各种各样的验证码问题,最简单的就是这种验证码了,那么在遇到验证码的时候该怎么办呢?我们就需要OCR技术了,OCR-即Optical Character Recognition光学字符识别,是指通过扫描字符,然后将其形状翻译成电子文本的过程.而tesserocr是Python的一个OCR识别库,所以在安装tesserocr之前,我们需要安装tesseract这个东西下载地址:https://digi.bib.uni-mannhe
Python文字截图识别OCR工具实例解析

一.简介你一定用过那种"OCR神器",可以把图片中的文字提取出来,极大的提高工作效率. 今天,我们就来做一款实时截图识别的小工具.顾名思义,运行程序时,可以实时把你截出来的图片中的文字识别出来. 二.模块 import keyboard # 用于监控键盘按下,触发事件(pip install keyboard) import time from aip import AipOcr # 调用百度接口(pip install baidu-aip) from PIL import Imag
python3安装OCR识别库tesserocr过程图解

OCR简介 OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程. window环境环境材料准备 Window10 Python-3.7.3.tgz tesserocr安装包安装tesserocr 1.打开链接,http
Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容实例详解

百度OCR体验地址: https://ai.baidu.com/tech/imagerecognition/general 腾讯OCR体验地址: https://cloud.tencent.com/act/event/ocrdemo 测试结果是:腾讯的效果要比百度的好腾讯云目前额度是: 每个接口 1,000次/月免费,有6个文字识别的接口,一共是6,000次/月百度接口调用之前写过文章 python实现百度OCR图片识别过程解析使用步骤 1.注册账号: https://cloud.tenc
如何基于Python代码实现高精度免费OCR工具

近期Github开源了一款基于Python开发.名为Textshot的截图工具,刚开源不到半个月已经500+Star. 这两天抽空看了一下Textshot的源码,的确是一个值得介绍的项目. 相对于大多数OCR工具复杂工程.差强人意的效果,Textshot具有明显的优势, 项目简单技术点丰富项目简单 Textshot整个项目只有1个Python文件.139行代码,没有复杂的第三方库应用,也不涉及过多后端算法的调用. 技术点丰富 Textshot这个项目虽然只有短短的139行代码,但是,却涉及P
基于Python实现图像文字识别OCR工具

目录引言功能列表 OCR部分界面部分软件代码参考链接引言最近在技术交流群里聊到一个关于图像文字识别的需求,在工作.生活中常常会用到,比如票据.漫画.扫描件.照片的文本提取. 博主基于 PyQt + PaddleOCR 写了一个桌面端的OCR工具,用于快速实现图片中文本区域自动检测+文本自动识别. 识别效果如下图所示: 所有框选区域为OCR算法自动检测,右侧列表有每个框对应的文字内容: 点击右侧"识别结果"中的文本记录,然后点击"复制到剪贴板"即可复制该
基于Python代码编辑器的选用(详解)

Python开发环境配置好了,但发现自带的代码编辑器貌似用着有点不大习惯啊,所以咱们就找一个"好用的"代码编辑器吧,网上搜了一下资料,Python常用的编辑器有如下一些: 1. Sublime Text 2. Vim 3. PyScripter 4. PyCharm 5. Eclipse with PyDev 6. Emacs 7. Komodo Edit 8. Wing 9. The Eric Python IDE 10. Interactive Editor for Python
基于python代码实现简易滤除数字的方法

如果想从一个含有数字,汉字,字母的列表中滤除仅含有数字的字符,当然可以采取正则表达式来完成,但是有点太麻烦了,因此可以采用一个比较巧妙的方式: 1.正则表达式解决 import re L = [u'小明', 'xiaohong', '12', 'adf12', '14'] for i in range(len(L)): if re.findall(r'^[^\d]\w+',L[i]): print re.findall(r'^\w+$',L[i])[0] elif isinstance(L[i]
基于python代码批量处理图片resize

出差做PPT,要放一些图片上去,原图太大必须resize,十几张图片懒得一一处理了,最近正好在学python,最好的学习方式就是使用,于是写了一个批量处理图片resize的代码,在写的过程中,熟悉了python自己的os模块和opencv的cv2模块. 代码如下 // python code import os import cv2 ''' 设置图片路径,该路径下包含了14张jpg格式的照片,名字依次为0.jpg, 1.jpg, 2.jpg,...,14.jpg''' DATADIR="D:\C
基于Python代码实现Apriori 关联规则算法

目录一.关联规则概述二.应用场景举例 1.股票涨跌预测 2.视频.音乐.图书等推荐 3.打车路线预测(考虑时空) 4.风控策略自动化挖掘三.3个最重要的概念 1.支持度 2.置信度 3.提升度 4. 频繁项集四.Python算法介绍五.挖掘实例一.关联规则概述 1993年,Agrawal等人在首先提出关联规则概念,迄今已经差不多30年了,在各种算法层出不穷的今天,这算得上是老古董了,比很多人的年纪还大,往往是数据挖掘的入门算法,但深入研究的不多,尤其在风控领域,有着极其重要的应用潜力
如何基于Python制作有道翻译小工具

这篇文章主要介绍了如何基于Python制作有道翻译小工具,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下该工具主要是利用了爬虫,爬取web有道翻译的内容. 然后利用简易GUI来可视化结果. 首先我们进入有道词典的首页,并点击翻译结果的审查元素之后request响应网页,并分析网页,定位到翻译结果. 使用tkinter来制作一个建议的GUI 期间遇到的一个问题则是如何刷新翻译的结果,否则的话会在text里一直累加翻译结果. 于是,在mainlo
基于Python实现傻瓜式GIF制作工具

目录导语一.简单的GIF制作 1)准备中 2)小简介 3)代码演示二.升级imageio的GIF制作 1)准备中 2)小简介 3)代码演示三.总效果展示导语嘿!大家好,我是木木子!今天给大家带来一个好玩儿的Python小程序,希望大家喜欢,记得点点关注啦~ 有没有什么内容形式,比小视频更小,比普通图片更丰富???? 有! GIF动态图就是其中一种形式,而且,必不可少. GIF动态图应该是早已充斥了互联网,被大家玩得不亦乐乎,大伙早就不能接受文章中的纯文字或静态图片,这些早已
基于Python实现PDF区域文本提取工具

目录功能简介开发代码功能简介打开软件后界面如下: 点击打开文件按钮打开之前的PDF文件后效果如下: 框选区域后,标题栏会自动显示当前框选的区域提取到的文字,还可以左右按钮切换: 实际我们需要提取文字的区域可能不止这一个,所以程序支持多区域框选: 完成区域框选后就可以点击保存文件,将PDF每页提取到的文本保存到一个csv文件中,当前选区的保存结果如下: 可以看到已经按框选顺序依次保存了每一个区域的字符串. 如果选择区域时发现提取结果不准确,可以撤销后重新选择: 保存图片则会将PDF的每页的
基于Python制作一个文件去重小工具

目录前言实现步骤补充前言常常在下载网络素材时有很多的重复文件乱七八糟的,于是想实现一个去重的操作. 主要实现思路就是遍历出某个文件夹包括其子文件夹下面的所有文件,最后,将所有文件通过MD5函数的对比筛选出来,最后将重复的文件移除. 实现步骤用到的第三方库都比较的常见,其中只有hashlib是用来对比文件的不是很常见.其他的都是一些比较常见的第三方库用来做辅助操作. import os # 应用文件操作 import hashlib # 文件对比操作 import logging #

如何基于Python代码实现高精度免费OCR工具

相关推荐

随机推荐