SpringBoot+Tess4j实现牛逼的OCR识别工具的示例代码

2025-02-01 00:30:08

前言

“ 等不到风中你的脸颊

眼泪都美到很融洽

等不到掩饰的雨落下

我的眼泪被你察觉 ”

听着循环的歌曲，写着久违的bug。好吧，还是一天。正好一个小伙伴说，要不要做个工具站玩一下。我就随意的找了个工具站，看了下，发现很多都有文字的OCR识别功能。因此，我想起来之前了解的非常流行的开源的OCR大神级别的项目，Tesseract OCR。

简单介绍

官网如下所示

tesseract-ocr.github.io/

简洁明了，挂在github上的网站。

详细的不再介绍，感兴趣的，可以进入同志网站：https://github.com/tesseract-ocr/tesseract，观摩学习。

实操准备

要想在开发中使用，还是需要接入对应的API。

对于开发者来说，提供了众多的Wrapper，来实现Api调用。

对于Java一名小开发，来讲，还是使用tess4j，作为Api来使用。官网如下：

tess4j.sourceforge.net/

可以直接下载jar包，或者采用Maven依赖下载。

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
  <groupId>net.sourceforge.tess4j</groupId>
  <artifactId>tess4j</artifactId>
  <version>4.5.3</version>
</dependency>

开发实现

First 创建工程

Second 添加依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>org.example</groupId>
  <artifactId>test-textocr</artifactId>
  <version>1.0-SNAPSHOT</version>
  <dependencies>
    <!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
    <dependency>
      <groupId>net.sourceforge.tess4j</groupId>
      <artifactId>tess4j</artifactId>
      <version>4.5.3</version>
    </dependency>

  </dependencies>

</project>

Third 填写类文件

package ocr;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;

/**
* ocr测试.
*
* @author huc_逆天
* @since 2021/1/12 17:42
*/
public class TestTextOcr {

  public static void main(String[] args) throws IOException {
    // 创建实例
    ITesseract instance = new Tesseract();

    // 设置识别语言

    instance.setLanguage("chi_sim");

    // 设置识别引擎

    instance.setOcrEngineMode(1);

    // 读取文件

    BufferedImage image = ImageIO.read(TestTextOcr.class.getResourceAsStream("/2.jpg"));
    try {

      // 识别

      String result = instance.doOCR(image);
      System.out.println(result);
   } catch (TesseractException e) {
      System.err.println(e.getMessage());
   }

 }
}

Fifth 添加训练语言环境配置

TESSDATA_PREFIX=F:\tessdata ，变量名，固定，值为官网下载文件 https://github.com/tesseract-ocr/tessdata

Sixth 运行

结果如下：

可能识别模式，不是很合适，切换下

instance.setOcrEngineMode(0);

是不是舒服多了，哈哈。识别率瞬间上涨。

大家可以自行测试。

总结

好了，今天就到这了。技术在于折腾。多学习，让自己武装起来，变强大。

到此这篇关于SpringBoot+Tess4j实现牛逼的OCR识别工具的示例代码的文章就介绍到这了,更多相关SpringBoot Tess4j OCR识别内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Java OCR tesseract 图像智能文字字符识别技术实例代码

接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码实现的,下面给大家分享下Java实现的例子. 拿代码扫描上面的图片,然后输出结果.主要思想就是利用Java调用系统任务. 下面是核心代码: package com.zhy.test; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.i
python3安装OCR识别库tesserocr过程图解

OCR简介 OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程. window环境环境材料准备 Window10 Python-3.7.3.tgz tesserocr安装包安装tesserocr 1.打开链接,http
Java使用OCR技术识别验证码实现自动化登陆方法

如论实施敏捷的团队,或者实施 DevOps 的团队,通过自动化测试提高测试效率和软件质量都是其共同的选择.UI 自动化测试是自动化化测试当中的重要环节,在 UI 自动化测试中验证码识别一直是令自动化测试人员头疼的问题.今年来随着 OCR 技术.人工智能计算机视觉(AI Computer Vision)技术的成熟与使用大大提高了验证码的识别成功率.从而使得自动识别验证码自动化登陆目标系统成为可能. 本Chat 主要内容包括: OCR 技术与人工智能计算机视觉(AI Computer Vision)
初探利用Python进行图文识别(OCR)

话说什么是OCR????? 简介 OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据.报刊.书籍.文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术.可应用于银行票据.大量文字资料.档案卷宗.文案的录入和处理领域.适合于银行.税务等行业大量票据表格的自动扫描识别及长期存储.相对一般文本,通常以最终识别率.识别速度.版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依
java实现腾讯ocr图片识别接口调用

最近开发了一个拍车牌识别车牌号的功能,主要调用了腾讯的ocr车牌识别接口,直接上代码: 首先生成签名以及读取配置的工具类: package com.weaver.formmodel.integration.ocr; import java.util.Random; import javax.crypto.Mac; import javax.crypto.spec.SecretKeySpec; import weaver.general.Base64; public class SignUtil
java实现图片文字识别ocr

最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为java使用的demo 在此之前,使用这个工具需要在本地安装OCR工具: 下面一个是一定要安装的离线包,建议默认安装上面一个是中文的语言包,如果网络可以FQ的童鞋可以在安装的时候就选择语言包在线安装,有多种语言可供选择,默认只有英文的 exe安装好之后,把上面一个文件拷到安装目录下tessdata文件夹下如C:\Program Files (x86)\Tesseract-OCR\tessd
python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

前言写爬虫有一个绕不过去的问题就是验证码,现在验证码分类大概有4种: 图像类滑动类点击类语音类今天先来看看图像类,这类验证码大多是数字.字母的组合,国内也有使用汉字的.在这个基础上增加噪点.干扰线.变形.重叠.不同字体颜色等方法来增加识别难度. 相应的,验证码识别大体可以分为下面几个步骤: 灰度处理增加对比度(可选) 二值化降噪倾斜校正分割字符建立训练库识别由于是实验性质的,文中用到的验证码均为程序生成而不是批量下载真实的网站验证码,这样做的好处就是可以有大量的知道明确结果
如何使用Python进行OCR识别图片中的文字

朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使用. OCR1,全称Optical character recognition,或者optical character reader,中文译名叫做光学文字识别.它是把图像文件中的手写文本,打印文本转换为机器编码文本的一种方法. OCR技术广泛用于识别打印纸张中的文字数据 -- 比如护照,支票,银行声明,收据,统计表单,邮件等.OCR的早期版本,需要对图片中的每个文字都
SpringBoot+Tess4j实现牛逼的OCR识别工具的示例代码

前言 " 等不到风中你的脸颊眼泪都美到很融洽等不到掩饰的雨落下我的眼泪被你察觉 " 听着循环的歌曲,写着久违的bug.好吧,还是一天.正好一个小伙伴说,要不要做个工具站玩一下.我就随意的找了个工具站,看了下,发现很多都有文字的OCR识别功能.因此,我想起来之前了解的非常流行的开源的OCR大神级别的项目,Tesseract OCR. 简单介绍官网如下所示 tesseract-ocr.github.io/ 简洁明了,挂在github上的网站. 详细的不再介绍,感兴趣的,可以进入同志
Opencv 图片的OCR识别的实战示例

一.图片变换 0.导入模块导入相关函数,遇到报错的话,直接pip install 函数名. import numpy as np import argparse import cv2 参数初始化 ap = argparse.ArgumentParser() ap.add_argument("-i", "--image", required = True, help = "Path to the image to be scanned") arg
springboot 在xml里读取yml的配置信息的示例代码

YML是什么 YAML (YAML Ain't a Markup Language)YAML不是一种标记语言,通常以.yml为后缀的文件,是一种直观的能够被电脑识别的数据序列化格式,并且容易被人类阅读,容易和脚本语言交互的,可以被支持YAML库的不同的编程语言程序导入,一种专门用来写配置文件的语言.可用于如: Java,C/C++, Ruby, Python, Perl, C#, PHP等. 可以用<springProperty> 标签从Spring中显示属性以下为在日志配置文件中读取的示例
SpringBoot如何实现一个实时更新的进度条的示例代码

前言博主近期接到一个任务,大概内容是:导入excel表格批量修改状态,期间如果发生错误则所有数据不成功,为了防止重复提交,做一个类似进度条的东东. 那么下面我会结合实际业务对这个功能进行分析和记录. 正文思路前端使用bootstrap,后端使用SpringBoot分布式到注册中心,原先的想法是导入表格后异步调用修改数据状态的方法,然后每次计算修改的进度然后存放在session中,前台jquery写定时任务访问获取session中的进度,更新进度条进度和百分比.但是这存在session在服务
Springboot实现根据条件切换注入不同实现类的示例代码

最近有个一需求需要根据外界环境的属性(操作系统 || yml属性 || 其他bean的状态) 来实现启动时注入两套不同的实现类, 实现切换. 实现启动时条件注入分2步: 第一步使用@Conditional(参数为 True false条件实现类需要你自己实现)注解 @Conditional(RabbitMqCondition.class) public class RabbitmqSMSMsgServiceImpl extends RabbitmqBasicMsgService { // @
SpringBoot中时间类型序列化、反序列化、格式处理示例代码

[SpringBoot] 中时间类型序列化.反序列化.格式处理 Date yml全局配置 spring: jackson: time-zone: GMT+8 date-format: yyyy-MM-dd HH:mm:ss #配置POST请求Body中Date时间类型序列化格式处理,并返回请求参数类型转换 /** * 时间Date转换 * 配置GET请求,Query查询Date时间类型参数转换 */ @Component public class DateConverter implemen
SpringBoot整合screw实现数据库文档自动生成的示例代码

有时候数据库文档需要整理,可是只能手动的复制粘贴,心中一万只草泥马奔腾而过... screw 简洁好用的数据库表结构文档生成工具. 1. 创建项目 1.1 pom.xml <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <scope>runtime</scope> </dependency>
vue+axios实现图片上传识别人脸的示例代码

目录 Axios请求 Qs处理数据分析 Vant上传文件格式完整代码本文主要介绍了vue+axios实现图片上传识别人脸的示例代码,分享给大家,具体如下: 先看最终效果: 这里采用的是vant的文件上传组件,通过上传图片后端识别图片里的人脸,返回到前端,获取该人脸匹配的工号或学号.以便后续其他系统使用,比如上传成功了一个人脸照片识别成功,可以通过人脸开启会议室的门禁.目前只是做了一个人脸上传的效果. Axios请求使用axios请求数据,method:post时,data默认的传参数据类型
SpringBoot利用限速器RateLimiter实现单机限流的示例代码

目录一. 概述二. SpringBootDemo 2.1 依赖 2.2 application.yml 2.3 启动类 2.4 定义一个限流注解 RateLimiter.java 2.5 代理: RateLimiterAspect.java 2.6 使用一. 概述参考开源项目https://github.com/xkcoding/spring-boot-demo 在系统运维中, 有时候为了避免用户的恶意刷接口, 会加入一定规则的限流, 本Demo使用速率限制器com.xkcoding.r
springboot 正确的在异步线程中使用request的示例代码

目录起因: 发现有人踩过坑,但是没解决尝试寻找官方支持尝试自己解决还是甩给官方解决结论起因: 有后端同事反馈在异步线程中获取了request中的参数,然后下一个请求是get请求的话,发现会偶尔出现参数丢失的问题. 示例代码: @GetMapping("/getParams") public String getParams(String a, int b) { return "get success"; } @PostMapping("/po