Python利用PaddleOCR制作个搜题小工具

2025-03-30 15:12:24

介绍

PaddleOCR 是一个基于百度飞桨的OCR工具库，包含总模型仅8.6M的超轻量级中文OCR，单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。

本教程将介绍PaddleOCR的基本使用方法以及如何使用它开发一个自动搜题的小工具。

项目地址

安装

虽然PaddleOCR支持服务端部署并提供识别API，但根据我们的需求，搭建一个本地离线的OCR识别环境，所以此次我们只介绍如何在本地安装并使用的做法。

安装PaddlePaddle飞桨框架

一、环境准备

1.1 目前飞桨支持的环境

Windows 7/8/10 专业版/企业版 (64bit)

GPU版本支持CUDA 10.1/10.2/11.0/11.2，且仅支持单卡

Python 版本 3.6+/3.7+/3.8+/3.9+ (64 bit)

pip 版本 20.2.2或更高版本 (64 bit)

二、安装命令

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

(注意此版本为CPU版本，如需GPU版本请查看PaddlePaddle文档)

安装完成后您可以使用 python 进入python解释器，输入import paddle ，再输入 paddle.utils.run_check()

如果出现PaddlePaddle is installed successfully!，说明您已成功安装。

安装PaddleOCR

pip install "paddleocr>=2.0.1" # 推荐使用2.0.1+版本

代码使用

安装完成后你可以使用以下代码来进行简单的功能测试

from paddleocr import PaddleOCR, draw_ocr

# Paddleocr目前支持中英文、英文、法语、德语、韩语、日语，可以通过修改lang参数进行切换
# 参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
# 选择你要识别的图片路径
img_path = '11.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    print(line)

# 显示结果
from PIL import Image

image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

结果是一个list，每个item包含了文本框，文字和识别置信度

[[[24.0, 36.0], [304.0, 34.0], [304.0, 72.0], [24.0, 74.0]], ['纯臻营养护发素', 0.964739]]
[[[24.0, 80.0], [172.0, 80.0], [172.0, 104.0], [24.0, 104.0]], ['产品信息/参数', 0.98069626]]
[[[24.0, 109.0], [333.0, 109.0], [333.0, 136.0], [24.0, 136.0]], ['（45元/每公斤，100公斤起订）', 0.9676722]]
......

可视化效果

至此我们就掌握了 PaddleOCR 的基本使用，基于这个我们就能开发出一个OCR的搜题小工具了。

更多使用方法请参考

搜题小工具

现在有很多那种答题竞赛的小游戏，在限定时间内看谁答题正确率更高。或者现在一些单位会搞一些大练兵什么的竞赛，需要在网上答题，这个时候手动输入题目去搜索就很慢，效率也不会太高，所以我们就可以来写一个脚本，帮助我们完成搜题的过程。

基本思路就是通过ADB截取当前屏幕，然后剪切出题目所在位置，然后通过PaddleOCR来获取题目文字，之后打开搜索引擎搜索或者打开题库搜索。

安装ADB

你可以到这里下载安装ADB之后配置环境变量。

配置完环境变量后在终端输入adb,如果出现以下字符则证明adb安装完成。

Android Debug Bridge version 1.0.41
Version 31.0.3-7562133

截图并保存题目区域图片

import os
from PIL import Image

# 截图
def pull_screenshot():
    os.system('adb shell screencap -p /sdcard/screenshot.png')
    os.system('adb pull /sdcard/screenshot.png .')

img = Image.open("./screenshot.png")
# 切割问题区域
# (起始点的横坐标，起始点的纵坐标，宽度，高度）
question  = img.crop((10, 400, 1060, 1000))
# 保存问题区域
question.save("./question.png")

OCR识别，获取题目

ocr = PaddleOCR(use_angle_cls=False,
                        lang="ch",
                        show_log=False
                        )  # need to run only once to download and load model into memory
img_path = 'question.png'
result = ocr.ocr(img_path, cls=False)

# 获取题目文本
questionList = [line[1][0] for line in result]
text = ""
# 将数组转换为字符串
for str in questionList :
    text += str
print(text)

打开浏览器搜索

import webbrowser
webbrowser.open('https://baidu.com/s?wd=' + urllib.parse.quote(question))

之后你就可以查看搜索结果了

如果有题库，你还可以使用pyautogui来模拟鼠标键盘操作，去操作Word等软件在题库中进行搜索。

完整代码

# -*- coding: utf-8 -*-

# @Author  : Pu Zhiwei
# @Time    : 2021-09-02 20:29

from PIL import Image
import os
import matplotlib.pyplot as plt
from paddleocr import PaddleOCR, draw_ocr
import pyperclip
import pyautogui
import time
import webbrowser
import urllib.parse

# 鼠标位置
currentMouseX, currentMouseY = 60, 282

# 截图获取当前题目
def pull_screenshot():
    os.system('adb shell screencap -p /sdcard/screenshot.png')
    os.system('adb pull /sdcard/screenshot.png .')

# 移动鼠标到搜索框搜索
def MoveMouseToSearch():
    # duration 参数，移动时间，即用时0.1秒移动到对应位置
    pyautogui.moveTo(currentMouseX, currentMouseY, duration=0.1)
    # 左键点击
    pyautogui.click()
    pyautogui.click()
    # 模拟组合键，粘贴
    pyautogui.hotkey('ctrl', 'v')

# 扩充问题
def AddText(list, length, text):
    if length > 3:
        return text + list[3]
    else:
        return text
# 打开浏览器
def open_webbrowser(question):
    webbrowser.open('https://baidu.com/s?wd=' + urllib.parse.quote(question))

# 显示所识别的题目
def ShowAllQuestionText(list):
    text = ""
    for str in list:
        text += str
    print(text)

if __name__ == "__main__":
    while True:
        print("\n\n请将鼠标放在Word的搜索框上，三秒后脚本将自动获取Word搜索框位置！\n\n")
        # 延时三秒输出鼠标位置
        time.sleep(3)
        # 获取当前鼠标位置
        currentMouseX, currentMouseY = pyautogui.position()
        print('当前鼠标位置为: {0} , {1}'.format(currentMouseX, currentMouseY))
        start = input("按y键程序开始运行，按其他键重新获取搜索框位置：")
        if start == 'y':
            break

    while True:
        t = time.perf_counter()
        pull_screenshot()
        img = Image.open("./screenshot.png")
        # 切割问题区域
        # (起始点的横坐标，起始点的纵坐标，宽度，高度）
        question  = img.crop((10, 400, 1060, 1000))
        # 保存问题区域
        question.save("./question.png")

        # 加载 PaddleOCR
        # Paddleocr目前支持中英文、英文、法语、德语、韩语、日语，可以通过修改lang参数进行切换
        # 参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。

        # 自定义模型地址
        # det_model_dir='./inference/ch_ppocr_server_v2.0_det_train',
        #                rec_model_dir='./inference/ch_ppocr_server_v2.0_rec_pre',
        #                cls_model_dir='./inference/ch_ppocr_mobile_v2.0_cls_train',
        ocr = PaddleOCR(use_angle_cls=False,
                        lang="ch",
                        show_log=False
                        )  # need to run only once to download and load model into memory
        img_path = 'question.png'
        result = ocr.ocr(img_path, cls=False)

        questionList = [line[1][0] for line in result]
        length = len(questionList)
        text = ""
        if length < 1:
            text = questionList[0]
        elif length == 2:
            text = questionList[1]
        else:
            text = questionList[1] + questionList[2]

        print('\n\n')
        ShowAllQuestionText(questionList)
        # 将结果写入剪切板
        pyperclip.copy(text)
        # 点击搜索
        MoveMouseToSearch()

        # 计算时间
        print('\n\n')
        end_time3 = time.perf_counter()
        print('用时: {0}'.format(end_time3 - t))

        go = input('输入回车继续运行,输入 e 打开浏览器搜索，输入 a 增加题目长度，输入 n 结束程序运行： ')
        if go == 'n':
            break

        if go == 'a':
            text = AddText(questionList, length, text)
            pyperclip.copy(text)
            # 点击搜索
            MoveMouseToSearch()
            stop = input("输入回车继续")
        elif go == 'e':
            # 打开浏览器
            open_webbrowser(text)
            stop = input("输入回车继续")

        print('\n------------------------\n\n')

到此这篇关于Python利用PaddleOCR制作个搜题小工具的文章就介绍到这了,更多相关Python PaddleOCR搜题工具内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python 图片文字识别的实现之PaddleOCR

目录项目使用项目结构环境部署 1.安装Anaconda,构造虚拟环境 2.依赖包下载测试代码参数补充总结前言什么是OCR? 光学字符识别(Optical Character Recognition, OCR),是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程.简而言之,检测图像中的文本资料,并且识别出文本的内容. 那么有哪些应用场景呢? 其实我们日常生活中处处都有ocr的影子,比如在疫情期间身份证识别录入信息.车辆车牌号识别.自动驾驶等.我们的生活中,机器学习已
python PaddleOCR库用法及知识点详解

说明 1.PaddleOCR是基于深度学习的ocr识别库,中文识别精度相当还不错,能够应对大多数文字提取需求. 2.需要依次安装三个依赖库,shapely库可能会受到系统的影响,出现安装错误. 安装命令 pip install paddlepaddle pip install shapely pip install paddleocr 代码实现 ocr = PaddleOCR(use_angle_cls=True,) # 输入待识别图片路径 img_path = r"d:\Desktop\4A3
python实现百万答题自动百度搜索答案

用python搭建百万答题.自动百度搜索答案. 使用平台 windows7 python3.6 MIX2手机代码原理手机屏幕内容同步到pc端对问题截图对截图文字分析用浏览器自动搜索文本使用教程 1.使用Airdroid 将手机屏幕显示在电脑屏幕上.也可使用360手机助手实现.不涉及任何代码.实现效果如图: 2.在提问出现时,运行python程序,将问题部分截图. 这里要用到两个函数: get_point() #采集要截图的坐标,以及图片的高度宽度 window_capture()
Python实现抓取百度搜索结果页的网站标题信息

比如,你想采集标题中包含"58同城"的SERP结果,并过滤包含有"北京"或"厦门"等结果数据. 该Python脚本主要是实现以上功能. 其中,使用BeautifulSoup来解析HTML,可以参考我的另外一篇文章:Windows8下安装BeautifulSoup 代码如下: 复制代码代码如下: __author__ = '曾是土木人' # -*- coding: utf-8 -*- #采集SERP搜索结果标题 import urllib2 fr
Python利用PaddleOCR制作个搜题小工具

目录介绍安装安装PaddlePaddle飞桨框架安装PaddleOCR 代码使用搜题小工具安装ADB 截图并保存题目区域图片 OCR识别,获取题目打开浏览器搜索完整代码介绍 PaddleOCR 是一个基于百度飞桨的OCR工具库,包含总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别.竖排文本识别.长文本识别.同时支持多种文本检测.文本识别的训练算法. 本教程将介绍PaddleOCR的基本使用方法以及如何使用它开发一个自动搜题的小工具. 项目地址 OR 安装虽然
Python利用pangu模块实现文本格式化小工具

其实使用pangu做文本格式标准化的业务代码在之前就实现了,主要能够将中文文本文档中的文字.标点符号等进行标准化. 但是为了方便起来我们这里使用了Qt5将其做成了一个可以操作的页面应用,这样不熟悉python的朋友就可以不用写代码直接双击运行使用就OK了. 为了使文本格式的美化过程不影响主线程的使用,特地采用QThread子线程来专门的运行文本文档美化的业务过程,接下来还是采用pip的方式将所有需要的非标准模块安装一下. pip install -i https://pypi.tuna.tsin
如何基于Python制作有道翻译小工具

这篇文章主要介绍了如何基于Python制作有道翻译小工具,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下该工具主要是利用了爬虫,爬取web有道翻译的内容. 然后利用简易GUI来可视化结果. 首先我们进入有道词典的首页,并点击翻译结果的审查元素之后request响应网页,并分析网页,定位到翻译结果. 使用tkinter来制作一个建议的GUI 期间遇到的一个问题则是如何刷新翻译的结果,否则的话会在text里一直累加翻译结果. 于是,在mainlo
Python利用imshow制作自定义渐变填充柱状图(colorbar)

目的在各种各样的理论计算中,常常需要绘制各种填充图,绘制完后需要加渐变填充的colorbar.可是有些软件如VMD,colorbar渲染后颜色分布有些失真,不能较准确的表达各颜色对应的数值.用ps中的渐变填充可以解决该问题,但很多电脑配置较低,不能很好的运行ps.Python也可以直接绘制colorbar,填充颜色就好.如cmap中的bwr渐变本人就比较常用.然而,有时候颜色范围是负数范围多于正数范围(如:colorbar需要表示 [-60,40]这段,蓝色表示负数,红色表示正数,白色应该在c
如何用C++制作LeetCode刷题小技巧-错题记录本

一 . 刷题小技巧 1,c++中的for(auto a:b)用法 for(auto a:b)中b为一个容器,效果是利用a遍历并获得b容器中的每一个值,但是a无法影响到b容器中的元素. for(auto &a:b)中加了引用符号,可以对容器中的内容进行赋值,即可通过对a赋值来做到容器b的内容填充. 2,c++中map的元素进行按照值排序(默认按照键排序) 为什么不能对map进行按值排序呢?因为sort排序只能对线性结构进行排序,而map是采用红黑树的数据结构. 一是通过将map转换到序列容器,再用
基于Python制作一个文件去重小工具

目录前言实现步骤补充前言常常在下载网络素材时有很多的重复文件乱七八糟的,于是想实现一个去重的操作. 主要实现思路就是遍历出某个文件夹包括其子文件夹下面的所有文件,最后,将所有文件通过MD5函数的对比筛选出来,最后将重复的文件移除. 实现步骤用到的第三方库都比较的常见,其中只有hashlib是用来对比文件的不是很常见.其他的都是一些比较常见的第三方库用来做辅助操作. import os # 应用文件操作 import hashlib # 文件对比操作 import logging #
使用Python制作一个打字训练小工具

一.写在前面说道程序员,你会想到什么呢?有人认为程序员象征着高薪,有人认为程序员都是死肥宅,还有人想到的则是996和 ICU. 别人眼中的程序员:飞快的敲击键盘.酷炫的切换屏幕.各种看不懂的字符代码. 然而现实中的程序员呢?对于很多程序员来说,没有百度和 Google 解决不了的问题,也没有 ctrl + c 和 ctrl + v 实现不了的功能. 那么身为一个程序员,要怎么让自己看起来更加"专业"呢?答案就是加快自己的打字速度了,敲的代码可能是错的,但这个13却是必须装的! 然而还
使用Python制作一个数据预处理小工具(多种操作一键完成)

在我们平常使用Python进行数据处理与分析时,在import完一大堆库之后,就是对数据进行预览,查看数据是否出现了缺失值.重复值等异常情况,并进行处理. 本文将结合GUI工具PySimpleGUI,来讲解如何制作一款属于自己的数据预处理小工具,让这个过程也能够自动化!最终效果如下本文将分为三部分讲解: 制作GUI界面数据处理讲解打包与测试主要涉及将涉及以下模块: PySimpleGUI pandas matplotlib 一.GUI界面制作思路老规矩,先讲思路再上代码,首先还是说一
Python利用PyQt5制作一个获取网络实时NBA数据并播报的GUI程序

制作NBA数据爬虫捋顺思路我们在这里选择的是百度体育带来的数据,我们在百度当中直接搜索NBA跳转到网页,我们可以看到,百度已经为我们提供了相关的数据我们点击进去后,可以发现这是一个非常简洁的网址我们看一下这个地址栏,发现毫无规律https://tiyu.baidu.com/live/detail/576O5Zu955S35a2Q6IGM5Lia56%2Bu55CD6IGU6LWbI2Jhc2tldGJhbGwjMjAyMS0wNi0xMyPniLXlo6t2c%2BWspritq%2Bi
Python制作一个随机抽奖小工具的实现

目录 1. 核心功能设计 2. GUI设计与实现 3. 功能实现 3.1 读取人员名单 3.2. 随机抽奖 3.3. 保存中奖名单 3.4. GUI交互逻辑最近在工作中面向社群玩家组织了一场活动,需要进行随机抽奖,参考之前小明大佬的案例,再结合自己的需求,做了一个简单的随机抽奖小工具. 今天我就来顺便介绍一下这个小工具的制作过程吧! 先看效果: 1. 核心功能设计针对随机抽奖的小工具,需要可以导入参与抽奖的人员名单,然后选择不同的奖励类型进行随机抽取获奖名单并导出. 那么,简单进行需求拆解,