Python实战之实现截图识别文字

2025-05-31 16:51:33

前言

系统：win10

Python版本：python3.8.6

pycharm版本：pycharm 2021.1.2(Professional Edition)

完整代码下载：Baidu_Ocr.py-Python

一、获取百度智能云token

百度智能云登录后找到人工智能界面下的文字识别->管理界面创建应用文字识别。

创建应用完成后记录下，后台界面提供的AppID、API key、Secret Key的信息

接下来根据官方提供的文档获取使用Token

# encoding:utf-8
import requests
# client_id 为官网获取的AK， client_secret 为官网获取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=wgEHks0l6MCpalbs3lPuFX1U&client_secret=Z4Rn4ghBx9k06fUYPmSEIRbCFvWFxLyQ'
response = requests.get(host)
if response:
    print(response.json()['access_token'])

二、百度借口调用

使用获取后token调用百度接口对图片进行识别提取文字

# encoding:utf-8

import requests
import base64
'''
通用文字识别（高精度版）
'''
request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
# 二进制方式打开图片文件
f = open('图片.png', 'rb')
img = base64.b64encode(f.read())
params = {"image":img}
# 获取后的Token的调用
access_token = '24.0d99efe8a0454ffd8d620b632c58cccc.2592000.1639986425.282335-24065278'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/x-www-form-urlencoded'}
response = requests.post(request_url, data=params, headers=headers)
if response:
    print (response.json())

获取后的token为json格式的数据

此处步骤我们可以看出识别后的文件是以json的格式返回的所以要想达到取出文字的效果就需要对json格式的返回值进行解析

三、搭建窗口化的程序以便于使用

实现窗口可视化的第三方类库是Tkinter。可在终端输入 pip install tkinter 自行下载安装

导入tkinter模块包构建我们的可视化窗口，要是实现的功能有截图识别文字，中英文分离，文字识别后自动发送给剪切板

from tkinter import *
# 创建窗口
window = Tk()
# 窗口名称
window.title('qcc-tnw')
# 设置窗口大小
window.geometry('400x600')
# 窗口标题设置
l=Label(window,text='百度API调用', bg='green', fg='white', font=('Arial', 12), width=30, height=2)
l.pack()
# 设置文本接收框
E1 = Text(window,width='100',height='100')
# 设置操作Button，单击运行文字识别  "window窗口，text表示按钮文本，font表示按钮本文字体，width表示按钮宽度，height表示按钮高度，command表示运行的函数"
img_txt = Button(window, text='文字识别', font=('Arial', 10), width=15, height=1)
# 设置操作Button，单击分割英文
cut_en = Button(window, text='英文分割', font=('Arial', 10), width=15, height=1)
# 设置操作Button，单击分割中文
cut_cn = Button(window, text='中文分割', font=('Arial', 10), width=15, height=1)
# 参数anchor='nw'表示在窗口的北偏西方向即左上角
img_txt.pack(anchor='nw')
cut_en.pack(anchor='nw')
cut_cn.pack(anchor='nw')
# 使得构建的窗口始终显示在桌面最上层
window.wm_attributes('-topmost',1)
window.mainloop()

四、实现截图的自动保存

通过上述对百度接口的解析发现接口是不支持提取剪切板中的文件的

所以通过PIL库截取的图片从剪切板保存到本地，在调用百度的接口实现图片中文字的识别

PIL的安装终端输入 pip install PIL

from PIL import ImageGrab

#取出剪切板的文件保存至本地

image = ImageGrab.grabclipboard()
s= 'xxx.png'
image.save(s)
#百度接口调用
request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
f = open(s, 'rb')
img = base64.b64encode(f.read())
params = {"image": img}
access_token = '24.ee0e97cbc00530d449464a563e628b8d.2592000.1640228774.282335-24065278'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/x-www-form-urlencoded'}
response = requests.post(request_url, data=params, headers=headers)
for i in response.json()['words_result']:
    print(i['words'])

完成后可以使用qq或微信等的截图功能截图并运行程序

五、将识别到的文字输出显示在窗口文本框中并将文字发送到剪切板

if response:
    for i in response.json()['words_result']:
        # 接受识别后的文本
        E1.insert("insert", i['words'] + '\n')
        E1.pack(side=LEFT)
    # 将识别后的文字写入剪切板
    pyperclip.copy(E1.get("1.0","end"))

六、提取识别后文字中的中（英）文

此处的判断相对简单将 if len(''.join(re.findall(r'[A-Za-z]', i['words'])))<1: 中的‘<'改为‘>'即为中文

E1.delete('1.0','end')
for i in response.json()['words_result']:
#判断是否存在英文
    if len(''.join(re.findall(r'[A-Za-z]', i['words'])))<1:
        #将识别正则过滤后的文本在文本框中显示
        E1.insert("insert", i['words'] + '\n')
        E1.pack(side=LEFT)
    #复制到剪切板
    pyperclip.copy(E1.get("1.0", "end"))

最后将方法封装为函数形式传递至我们定义好的窗口按钮中

# 设置操作Button，单击运行文字识别  "window窗口，text表示按钮文本，font表示按钮本文字体，width表示按钮宽度，height表示按钮高度，command表示运行的函数"
img_txt = Button(window, text='文字识别', font=('Arial', 10), width=15, height=1,command=img_all)
# 设置操作Button，单击分割英文
cut_en = Button(window, text='英文分割', font=('Arial', 10), width=15, height=1,command=img_en)
# 设置操作Button，单击分割中文
cut_cn = Button(window, text='中文分割', font=('Arial', 10), width=15, height=1,command=img_cn)
# 参数anchor='nw'表示在窗口的北偏西方向即左上角
img_txt.pack(anchor='nw')
cut_en.pack(anchor='nw')
cut_cn.pack(anchor='nw')
window.wm_attributes('-topmost',1)

以上就是Python实战之实现截图识别文字的详细内容，更多关于Python 截图识别文字的资料请关注我们其它相关文章！

Python 图片文字识别的实现之PaddleOCR

目录项目使用项目结构环境部署 1.安装Anaconda,构造虚拟环境 2.依赖包下载测试代码参数补充总结前言什么是OCR? 光学字符识别(Optical Character Recognition, OCR),是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程.简而言之,检测图像中的文本资料,并且识别出文本的内容. 那么有哪些应用场景呢? 其实我们日常生活中处处都有ocr的影子,比如在疫情期间身份证识别录入信息.车辆车牌号识别.自动驾驶等.我们的生活中,机器学习已
Python 实现任意区域文字识别(OCR)操作

本文的OCR当然不是自己从头开发的,是基于百度智能云提供的API(我感觉是百度在中国的人工智能领域值得称赞的一大贡献),其提供的API完全可以满足个人使用,相对来说简洁准确率高. 安装OCR Python SDK OCR Python SDK目录结构 ├── README.md ├── aip //SDK目录 │ ├── __init__.py //导出类 │ ├── base.py //aip基类 │ ├── http.py //http请求 │ └── ocr.py //OCR └── se
Python文字截图识别OCR工具实例解析

一.简介你一定用过那种"OCR神器",可以把图片中的文字提取出来,极大的提高工作效率. 今天,我们就来做一款实时截图识别的小工具.顾名思义,运行程序时,可以实时把你截出来的图片中的文字识别出来. 二.模块 import keyboard # 用于监控键盘按下,触发事件(pip install keyboard) import time from aip import AipOcr # 调用百度接口(pip install baidu-aip) from PIL import Imag
Python调用百度AI实现图片上文字识别功能实例

目录简介步骤安装百度AI库注册百度AI开放平台调用glob库调用AipOcr库识别文字可能会遇到的问题批量操作总结简介 Python免费调用百度AI实现图片上面的文字识别步骤安装百度AI库 !pip install baidu-aip 注册百度AI开放平台先注册百度AI,获得ID和密钥.注册方法可参考:注册方法只需走到 "1.6 获取密钥" 即可.然后记录下自己的APP_ID.API_KEY.SECRET_KEY,就可以开始了. 调用glob库 glob库用
python调用文字识别OCR轻松搞定验证码

今天带你们去研究一个有趣的东西,文字识别OCR.不知道你们有没有想要识别图片,然后读出文字的功能.例如验证码,如果需要自动填写的话就需要这功能.还有很多种情况需要这功能的. 我们可以登录百度云,然后看看里面的接口文档.接口功能还是有比较丰富的应用场景的. # encoding:utf-8 import requests import base64 ''' 通用文字识别 ''' request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/gene
Python实战之实现截图识别文字

目录前言一.获取百度智能云token 二.百度借口调用三.搭建窗口化的程序以便于使用四.实现截图的自动保存五.将识别到的文字输出显示在窗口文本框中并将文字发送到剪切板六.提取识别后文字中的中(英)文前言系统:win10 Python版本:python3.8.6 pycharm版本:pycharm 2021.1.2(Professional Edition) 完整代码下载:Baidu_Ocr.py-Python 一.获取百度智能云token 百度智能云登录后找到人工智能界面下的文字
Python如何基于Tesseract实现识别文字功能

机器视觉从Google的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域. 这里我们将重点介绍机器视觉的一个分支:文字识别.介绍如何用一些Python库来识别和使用在线图片中的文字. 我们可以很轻松的阅读图片里的文字,但是机器阅读这些图片就会非常困难,利用这种人类用户可以正常读取但是大多数存贮器没法读取的图片,这时验证码(CAPTCHA)就出现了.验证码读取的难易程序也大不相同. 将图像翻译成文字一般被称为光学文字识别(Optical Ch
Python实战之实现百度智能图片识别

这是我们最终的效果,那么我们一起来看一看如何实现吧!超简单易上手哦! 首先我们需要先配置pyqt5的资源,这里就不说关于安装包的问题了(pip或者pycharm可以直接添加解决的问题,不一一赘述),我们直接说环境配置和路径的问题(所有的配置都在FILE -> setting -> Tools -> External Tools里): 1.配置designer.exe 之前没安装过的需要点击加号添加,这里只要注意Working directory和Program的配置正确即可(务必正确,不
python识别文字(基于tesseract)代码实例

这篇文章主要介绍了python识别文字(基于tesseract)代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 Ubuntu版本: 1.tesseract-ocr安装 sudo apt-get install tesseract-ocr 2.pytesseract安装 sudo pip install pytesseract 3.Pillow 安装 sudo pip install pillow 开始写代码: from PIL impo
Python调用百度OCR实现图片文字识别的示例代码

百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '******' API_KEY = '************' SECRET_KEY = '**************' 下面就是百度API包的安装,在终端cmd输入如下语句直接pip方式安装,注意是 baidu-api 哦! pip install --user baidu-aip 接下来上py
python利用pytesseract 实现本地识别图片文字

#!/usr/bin/env python3 # -*- coding: utf-8 -*- import glob from os import path import os import pytesseract from PIL import Image from queue import Queue import threading import datetime import cv2 def convertimg(picfile, outdir): '''调整图片大小,对于过大的图片进行
python实战之用emoji表情生成文字

一.前言昨夜刷b站的时候,看到了一条评论,形式如下图,于是心血来潮写了个python脚本,可以根据文字来生成这种由emoji拼接成的"文字". 二.思路代码的思路极其简单,这种形式的"文字"可以理解为一张黑白图片,图中的白色使用一种emoji表情代替,黑色使用另一种emoji代替.那么想要生成这种"文字",则我们只需要两步即可,第一步是根据输入文字得到一张图,第二步则是遍历这张图片,当前像素的颜色为黑色时我们输出
Python实战小项目之Mnist手写数字识别

目录程序流程分析图: 传播过程: 代码展示: 创建环境准备数据集下载数据集下载测试集绘制图像搭建神经网络训练模型测试模型保存训练模型运行结果展示: 程序流程分析图: 传播过程: 代码展示: 创建环境使用<pip install+包名>来下载torch,torchvision包准备数据集设置一次训练所选取的样本数Batch_Sized的值为512,训练此时Epochs的值为8 BATCH_SIZE = 512 EPOCHS = 8 device = torch.devi
Python实战之MNIST手写数字识别详解

目录数据集介绍 1.数据预处理 2.网络搭建 3.网络配置关于优化器关于损失函数关于指标 4.网络训练与测试 5.绘制loss和accuracy随着epochs的变化图 6.完整代码数据集介绍 MNIST数据集是机器学习领域中非常经典的一个数据集,由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片,且内置于keras.本文采用Tensorflow下Keras(Keras中文文档)神经网络API进行网络搭建. 开始之前,先回忆下机器学习