Python 实现任意区域文字识别(OCR)操作

2025-04-02 22:44:10

本文的OCR当然不是自己从头开发的，是基于百度智能云提供的API（我感觉是百度在中国的人工智能领域值得称赞的一大贡献），其提供的API完全可以满足个人使用，相对来说简洁准确率高。

安装OCR Python SDK

OCR Python SDK目录结构

├── README.md
├── aip     //SDK目录
│ ├── __init__.py  //导出类
│ ├── base.py   //aip基类
│ ├── http.py   //http请求
│ └── ocr.py   //OCR
└── setup.py    //setuptools安装

支持Python版本：2.7.+ ,3.+

安装使用Python SDK有如下方式：

如果已安装pip，执行pip install baidu-aip即可。

如果已安装setuptools，下载后执行python setup.py install即可。

代码实现

下面让我们来看一下代码实现。

主要使用的模块有

import os # 操作系统相关
import sys # 系统相关
import time # 时间获取
import signal # 系统信号
import winsound # 提示音
from aip import AipOcr # 百度OCR API
from PIL import ImageGrab # 捕获剪切板中的图片
import win32clipboard as wc # WINDOWS 剪切板操作
import win32con # 这里用于获取 WINDOWS 剪贴板数据的标准格式

第一步这里的APP_ID,API_KEY,SECRET_KEY是通过登陆百度智能云后自己在OCR板块申请的, 实现基本的OCR程序，可以通过图片获取文字。

""" 你的 APPID AK SK """
APP_ID = 'xxx'
API_KEY = 'xxx'
SECRET_KEY = 'xxx'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 读取图片 """
def get_file_content(filePath):
 with open(filePath, 'rb') as fp:
  return fp.read()

""" 从API的返回字典中获取文字 """
def getOcrText(txt_dict):
 txt = ""
 if type(txt_dict) == dict:
 for i in txt_dict['words_result']:
 txt = txt + i["words"]
 if len(i["words"]) < 25: # 这里使用字符串长度决定了文本是否换行，读者可以根据自己的喜好控制回车符的输出，实现可控的文本显示形式
 txt = txt + "\n\n"
 return txt

""" 调用通用/高精度文字识别, 图片参数为本地图片 """
def BaiduOcr(imageName,Accurate=True):
 image = get_file_content(imageName)
 if Accurate:
 return getOcrText(client.basicGeneral(image))
 else:
 return getOcrText(client.basicAccurate(image))

""" 带参数调用通用文字识别, 图片参数为远程url图片 """
def BaiduOcrUrl(url):
 return getOcrText(client.basicGeneralUrl(url))

第二步，实现快捷键获取文字，将识别文字放入剪切板中，提示音提醒以及快捷键退出程序

""" 剪切板操作函数 """
def get_clipboard():
 wc.OpenClipboard()
 txt = wc.GetClipboardData(win32con.CF_UNICODETEXT)
 wc.CloseClipboard()
 return txt

def empty_clipboard():
 wc.OpenClipboard()
 wc.EmptyClipboard()
 wc.CloseClipboard()

def set_clipboard(txt):
 wc.OpenClipboard()
 wc.EmptyClipboard()
 wc.SetClipboardData(win32con.CF_UNICODETEXT, txt)
 wc.CloseClipboard()

""" 截图后,调用通用/高精度文字识别"""
def BaiduOcrScreenshots(Accurate=True,path="./",ifauto=False):
 if not os.path.exists(path):
 os.makedirs(path)
 image = ImageGrab.grabclipboard()
 if image != None:
 print("\rThe image has been obtained. Please wait a moment!",end=" ")
 filename = str(time.time_ns())
 image.save(path+filename+".png")
 if Accurate:
 txt = getOcrText(client.basicAccurate(get_file_content(path+filename+".png")))
 else:
 txt = getOcrText(client.basicGeneral(get_file_content(path+filename+".png")))
 os.remove(path+filename+".png")
 # f = open(os.path.abspath(path)+"\\"+filename+".txt",'w')
 # f.write(txt)
 set_clipboard(txt)
 winsound.PlaySound('SystemAsterisk',winsound.SND_ASYNC)
 # os.startfile(os.path.abspath(path)+"\\"+filename+".txt")
 # empty_clipboard()
 return txt
 else :
 if not ifauto:
 print("Please get the screenshots by Shift+Win+S!  ",end="")
 return ""
 else:
 print("\rPlease get the screenshots by Shift+Win+S !  ",end="")

def sig_handler(signum, frame):
 sys.exit(0)

def removeTempFile(file = [".txt",".png"],path="./"):
 if not os.path.exists(path):
 os.makedirs(path)
 pathDir = os.listdir(path)
 for i in pathDir:
 for j in file:
 if j in i:
 os.remove(path+i)

def AutoOcrFile(path="./",filetype=[".png",".jpg",".bmp"]):
 if not os.path.exists(path):
 os.makedirs(path)
 pathDir = os.listdir(path)
 for i in pathDir:
 for j in filetype:
 if j in i:
 f = open(os.path.abspath(path)+"\\"+str(time.time_ns())+".txt",'w')
 f.write(BaiduOcr(path+i))
 break

def AutoOcrScreenshots():
 signal.signal(signal.SIGINT, sig_handler)
 signal.signal(signal.SIGTERM, sig_handler)
 print("Waiting For Ctrl+C to exit ater removing all picture files and txt files!")
 print("Please get the screenshots by Shift+Win+S !",end="")
 while(1):
 try:
 BaiduOcrScreenshots(ifauto=True)
 time.sleep(0.1)
 except SystemExit:
 removeTempFile()
 break
 else :
 pass
 finally:
 pass

最终运行函数 AutoOcrScreenshots 函数便可以实现了：

if __name__ == '__main__':
 AutoOcrScreenshots()

使用方法

使用 Windows 10 系统时，将以上代码放置在一个 .py 文件下，然后运行便可以使用Shift+Win+S快捷键实现任意区域截取，截取后图片将暂时存放在剪切板中，程序自动使用Windows API获取图片内容，之后使用百度的OCR API获取文字，并将文字放置在剪切版内存中后发出提示音。

使用者则可以在开启程序后，使用快捷键截图后静待提示音后使用Ctrl+V将文字内容放置在自己所需的位置。

补充：Python 中文OCR

有个需求，需要从一张图片中识别出中文，通过python来实现，这种这么高大上的黑科技我们普通人自然搞不了，去github找了一个似乎能满足需求的开源库-tesseract-ocr：

Tesseract的OCR引擎目前已作为开源项目发布在Google Project，其项目主页在这里查看https://github.com/tesseract-ocr，

它支持中文OCR，并提供了一个命令行工具。python中对应的包是pytesseract. 通过这个工具我们可以识别图片上的文字。

笔者的开发环境如下：

macosx

python 3.6

brew

安装tesseract

brew install tesseract

安装python对应的包：pytesseract

pip install pytesseract

怎么用？

如果要识别中文需要下载对应的训练集：https://github.com/tesseract-ocr/tessdata，下载”chi_sim.traineddata”，然后copy到训练数据集的存放路径，如：

具体代码就几行:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pytesseract
from PIL import Image

# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

OCR速度比较慢，大家可以拿一张包含中文的图片试验一下。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

如何使用Python进行OCR识别图片中的文字

朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使用. OCR1,全称Optical character recognition,或者optical character reader,中文译名叫做光学文字识别.它是把图像文件中的手写文本,打印文本转换为机器编码文本的一种方法. OCR技术广泛用于识别打印纸张中的文字数据 -- 比如护照,支票,银行声明,收据,统计表单,邮件等.OCR的早期版本,需要对图片中的每个文字都
Python调用百度OCR实现图片文字识别的示例代码

百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '******' API_KEY = '************' SECRET_KEY = '**************' 下面就是百度API包的安装,在终端cmd输入如下语句直接pip方式安装,注意是 baidu-api 哦! pip install --user baidu-aip 接下来上py
Python基于百度AI实现OCR文字识别

百度AI功能还是很强大的,百度AI开放平台真的是测试接口的天堂,免费接口很多,当然有量的限制,但个人使用是完全够用的,什么人脸识别.MQTT服务器.语音识别等等,应有尽有. 看看OCR识别免费的量快速安装:执行pip install baidu-aip即可新建一个AipOcr: from aip import AipOcr """ 你的 APPID AK SK """ APP_ID = '你的 App ID' API_KEY = '你的 Ap
Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容实例详解

百度OCR体验地址: https://ai.baidu.com/tech/imagerecognition/general 腾讯OCR体验地址: https://cloud.tencent.com/act/event/ocrdemo 测试结果是:腾讯的效果要比百度的好腾讯云目前额度是: 每个接口 1,000次/月免费,有6个文字识别的接口,一共是6,000次/月百度接口调用之前写过文章 python实现百度OCR图片识别过程解析使用步骤 1.注册账号: https://cloud.tenc
Python图像处理之图片文字识别功能（OCR)

OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制. Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司).Tesseract 是目前公认最优秀.最精确的开源OCR 系统. 除了极高的精确度,Tesseract 也具有很高的灵活性.它可
python 3调用百度OCR API实现剪贴板文字识别

本程序调用百度OCR API对剪贴板的图片文字识别,配合CaptureScreen软件,可快速识别文字. #!python3 import urllib.request, urllib.parse import os, io, sys, json, socket import base64 from PIL import ImageGrab socket.setdefaulttimeout(30) def get_auth(): apikey = 'your apikey' secret_key
Python文字截图识别OCR工具实例解析

一.简介你一定用过那种"OCR神器",可以把图片中的文字提取出来,极大的提高工作效率. 今天,我们就来做一款实时截图识别的小工具.顾名思义,运行程序时,可以实时把你截出来的图片中的文字识别出来. 二.模块 import keyboard # 用于监控键盘按下,触发事件(pip install keyboard) import time from aip import AipOcr # 调用百度接口(pip install baidu-aip) from PIL import Imag
Python 实现任意区域文字识别(OCR)操作

本文的OCR当然不是自己从头开发的,是基于百度智能云提供的API(我感觉是百度在中国的人工智能领域值得称赞的一大贡献),其提供的API完全可以满足个人使用,相对来说简洁准确率高. 安装OCR Python SDK OCR Python SDK目录结构 ├── README.md ├── aip //SDK目录 │ ├── __init__.py //导出类 │ ├── base.py //aip基类 │ ├── http.py //http请求 │ └── ocr.py //OCR └── se
基于Python实现图像文字识别OCR工具

目录引言功能列表 OCR部分界面部分软件代码参考链接引言最近在技术交流群里聊到一个关于图像文字识别的需求,在工作.生活中常常会用到,比如票据.漫画.扫描件.照片的文本提取. 博主基于 PyQt + PaddleOCR 写了一个桌面端的OCR工具,用于快速实现图片中文本区域自动检测+文本自动识别. 识别效果如下图所示: 所有框选区域为OCR算法自动检测,右侧列表有每个框对应的文字内容: 点击右侧"识别结果"中的文本记录,然后点击"复制到剪贴板"即可复制该
python调用文字识别OCR轻松搞定验证码

今天带你们去研究一个有趣的东西,文字识别OCR.不知道你们有没有想要识别图片,然后读出文字的功能.例如验证码,如果需要自动填写的话就需要这功能.还有很多种情况需要这功能的. 我们可以登录百度云,然后看看里面的接口文档.接口功能还是有比较丰富的应用场景的. # encoding:utf-8 import requests import base64 ''' 通用文字识别 ''' request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/gene
Python Opencv实战之文字检测OCR

目录 1.相关函数的讲解 2.代码展示 Detecting Words Detecting ONLY Digits 3.问题叙述 4.image_to_data()配置讲解 5.项目拓展 6.总结与评价 1.相关函数的讲解 image_to_data()的输出结果是表格形式,输出变量的类型依旧是字符串. 你会得到一个这样的列表['level', 'page_num', 'block_num', 'par_num', 'line_num', 'word_num', 'left', 'top', '
python实现简单的文字识别

本文实例为大家分享了python实现简单的文字识别的具体代码,供大家参考,具体内容如下 Python版本:3.6.5 百度云提供的文字识别技术,准确率还是非常高的,而且每天还有5w次免费的调用量,对于用来学习或者偶尔拿来用用,已经完全足够了.文章提供一个模板,稍加修改就可以直接套用.注释中提到必须输入的地方,你都正确地输入了的话,就可以完成一次简单的文字识别了. # -*- coding: utf-8 -*- import requests import base64 class Orc_mai
python 百度aip实现文字识别的实现示例

目录介绍模块使用介绍百度aip模块是用于实现百度云与用户接口,简单来说就是使用百度云所拥有的人工智能模块. 模块使用 pip install baidu-aip#下载百度云模块登录百度云账号填写信息使用官方的文档 https://cloud.baidu.com/doc/OCR/s/wkibizyjk #百度aip模块,实现文字识别 from aip import AipOcr """ 你的 APPID AK SK """ APP_I
Python基于百度云文字识别API

本文实例为大家分享了Python实现最简单的文字识别的具体代码,供大家参考,具体内容如下 Python版本:3.6.5 百度云提供的文字识别技术,准确率还是非常高的,而且每天还有5w次免费的调用量,对于用来学习或者偶尔拿来用用,已经完全足够了.文章提供一个模板,稍加修改就可以直接套用.注释中提到必须输入的地方,你都正确地输入了的话,就可以完成一次简单的文字识别了. # -*- coding: utf-8 -*- import requests import base64 class Orc_ma
java实现图片文字识别ocr

最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为java使用的demo 在此之前,使用这个工具需要在本地安装OCR工具: 下面一个是一定要安装的离线包,建议默认安装上面一个是中文的语言包,如果网络可以FQ的童鞋可以在安装的时候就选择语言包在线安装,有多种语言可供选择,默认只有英文的 exe安装好之后,把上面一个文件拷到安装目录下tessdata文件夹下如C:\Program Files (x86)\Tesseract-OCR\tessd
c# 开发文字识别软件

本文主要讨论C#开发使用百度文字识别OCR来识别文字,本文最后会提供本安全源代码以及运行软件包,如有需要可自行下载开发流程如下: 1. 创建百度应用: 创建应用之后就能看到创建完的应用和 API KEY 以及 Secret KEY了,在调用API时需传入这些配置值详见:https://console.bce.baidu.com/ai/#/ai/ocr/overview/index 2. 引用 Baidu.Aip (SDK) Baidu.Aip 封闭了文字识别Ocr API 的Http请求,简

Python 实现任意区域文字识别(OCR)操作

安装OCR Python SDK

代码实现

使用方法

相关推荐

随机推荐