Java使用Tesseract-Ocr识别数字

前言

Tesseract-Ocr是我在编写爬虫项目中,用来识别图片(不是验证码)的本地解决方案(因为客户不想使用API识别,太贵),识别率目前达到了100%,可以说是相当了得,当然了,这取决于使用的traineddata。

简介

Tesseract最初是在1985年至1994年间在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co开发的,1996年进行了一些更改,移植到Windows,并且随着C++在1998年兴起。2005年Tesseract由惠普开源,然后从2006年至今,由谷歌继续开发。

Tesseract-Ocr并不是一个软件,它是一个软件包,包含了一个OCR引擎【libtesseract】和一个命令行程序 【tesseract】。Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于行级识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式来工作。

要启用与Tesseract 3的兼容性,你需要使用Legacy OCR Engine模式(--oem 0)。它还需要支持传统引擎的traineddata(训练好的数据文件),这些文件可以从tessdata存储库的文件获取。

Tesseract支持识别unicode(UTF-8),可以“开箱即用”识别100多种语言。

Tesseract支持多种输出格式:纯文本,hOCR(HTML),PDF,TSV。主分支还具有ALTO(XML)输出的实验支持。

⭐️⭐️⭐️ 具体介绍可以上tesseract-wiki查看。

在Java上使用

创建项目,并引入Jar包

Maven

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.3.1</version>
</dependency>

Gradle

compile 'net.sourceforge.tess4j:tess4j:4.3.1'

导入traineddata

traineddata是使用Tesseract-Ocr训练好的数据文件,可以直接使用。这些文件你可以去tessdata存储库查找,也可以去谷歌搜索,当然了,你也可以自己训练😂。

traineddata通常以*.traineddata命名,其中*指的是支持的语言类型。在这里你可以看到4.0.0版本支持的语言以及traineddata列表。

这次,我们选择eng.traineddata进行测试。下载eng.traineddata放入/resources/traineddata目录。

编写测试代码

初始化Tesseract引擎

public class TesseractTest {

    private ITesseract tesseract;

    @Before
    public void init() {
        tesseract = new Tesseract();
        System.out.println("tesseract init done...");
    }

}

实际上,上面的代码是无法正常运行的,因为找不到指定语言版本的traineddata文件。

net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好,在Tesseract构造函数中,没有提供可选参数的构造器。

public class Tesseract implements ITesseract {

    // Tesseract使用的语言版本,用以选择traineddata
    private String language = "eng";
    // traineddata目录,里面放*.traineddata数据文件
    private String datapath;

    // 省略其他代码 ...

    public Tesseract() {
        try {
            // 默认从系统环境变量获取traineddata目录
            datapath = System.getenv("TESSDATA_PREFIX");
        } catch (Exception e) {
            // ignore
        } finally {
            if (datapath == null) {
                datapath = "./";
            }
        }
    }

    /**
     * Sets language for OCR.
     *
     * @param language the language code, which follows ISO 639-3 standard.
     */
    @Override
    public void setLanguage(String language) {
        this.language = language;
    }

    /**
     * Sets path to <code>tessdata</code>.
     *
     * @param datapath the tessdata path to set
     */
    @Override
    public void setDatapath(String datapath) {
        this.datapath = datapath;
    }

    // 省略其他代码 ...
}

所以,我们可以选择设置环境变量TESSDATA_PREFIX为数据目录,或者通过Java编码的方式来设置。

tesseract.setLanguage("eng"); // 默认就是eng,你可以选择其他lang
tesseract.setDatapath(TesseractTest.class.getResource("/traineddata").getPath().substring(1));

OCR识别测试
tesseract提供了一系列doOcr方法的重载,我们可以方便的进行OCR识别。

String doOCR(File imageFile) throws TesseractException;

String doOCR(File imageFile, Rectangle rect) throws TesseractException;

String doOCR(BufferedImage bi) throws TesseractException;

String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;

String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException;

String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;

可以看出,doOcr方法支持多种图片识别方式,如图片文件、多个图片文件、图片文件局部处理等等方式。

为了方便测试,我们选取最简单的图片文件方式测试。

图片是个URL链接,如下所示

@Test
public void testOcr() throws IOException, TesseractException {
    BufferedImage image = ImageIO.read(new URL("http://static8.ziroom.com/phoenix/pc/images/price/aacd14fbc53a106c7f0f0d667535683as.png"));
    String ocr = tesseract.doOCR(image);
    System.out.println("ocr result : " + ocr);
}

控制台输出:

tesseract init done...
ocr result : 2710386495

识别准确率,主要在于你选择的训练数据文件,我使用的是数据文件是这个,对于数字的准确率基本上是100%。

异常
如果你遭遇Invalid memory access异常,这是由于找不到对应lang的*.traineddata文件,请修改language和datapath。

Invalid memory access
java.lang.Error: Invalid memory access
	at com.sun.jna.Native.invokePointer(Native Method)
	at com.sun.jna.Function.invokePointer(Function.java:470)
	at com.sun.jna.Function.invoke(Function.java:404)
	at com.sun.jna.Function.invoke(Function.java:315)
	at com.sun.jna.Library$Handler.invoke(Library.java:212)
	at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)
	at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258)
    ...

训练工具

https://github.com/tesseract-ocr/tesseract/wiki/AddOns

训练数据仓库

  • tessdata_best:基于LSTM引擎的训练数据,最佳最准确的
  • tessdata_fast:基于LSTM引擎的训练数据,快速(精简)版本
  • tessdata:支持双引擎(LSTM和传统引擎),但LSTM训练数据不是最新的版本

推荐使用tessdata_best,虽然识别速度相对于tessdata_fast稍慢,但是准确率可以保证。

参考

tesseract-ocr-wiki

以上就是Java使用Tesseract-Ocr识别数字的详细内容,更多关于Java 识别数字的资料请关注我们其它相关文章!

(0)

相关推荐

  • Java字节流和字符流及IO流的总结

    从接收输入值说起 在日常的开发应用中,有时候需要直接接收外部设备如键盘等的输入值,而对于这种数据的接收方式,我们一般有三种方法:字节流读取,字符流读取,Scanner 工具类读取. 字节流读取 直接看一个例子: public class Demo01SystemIn { public static void main(String[] args) throws IOException { int a = System.in.read(); System.out.println(a); char

  • Java 生成带Logo和文字的二维码

    ZXing 是一个开放源码的,用Java实现的多种格式的1D/2D条码图像处理库,它包含了联系到其他语言的端口.Zxing 可以实现使用手机的内置的摄像头完成条形码的扫描及解码.本章讲解用 ZXing 生成和扫码二维码. 依赖 在Java项目中pom.xml加入: <dependency> <groupId>com.google.zxing</groupId> <artifactId>core</artifactId> <version&g

  • java实战之猜字小游戏

    一.题目描述 二.思路 语法基础:StringBuilder 类似列表,可以更改元素. package Practice; public class tt { public static void main(String[] args) { String str = "banana"; System.out.println(str.indexOf('z')); // -1 System.out.println(str.indexOf('a', 2)); // 3 StringBuild

  • java实现简单注册选择所在城市

    本文实例为大家分享了java实现简单注册选择所在城市的全部代码,供大家参考,具体内容如下 1.activity_main.xml <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tools="http://schemas.androi

  • Java利用Request请求如何获取IP地址对应的省份、城市详解

    前言 最近的一个项目中需要将不同省份的用户,展示不同内容,所以需要通过Request请求获取IP地址, 然后通过IP获取IP对应省份. 这里的操作步骤一共有步: 1. 通过Request获取IP 2. 通过IP获取对应省份.城市 3. 通过设置的省份和IP对应省份进行比对,展示内容 通过Request获取IP 可以参考我的另外一篇文章[Java 通过Request请求获取IP地址]下面是代码: public class IpAdrressUtil { /** * 获取Ip地址 * @param

  • 25行Java代码将普通图片转换为字符画图片和文本的实现

    本文主要介绍了25行Java代码将普通图片转换为字符画图片和文本的实现,分享给大家,具体如下: 原图 生成字符画文本(像素转换字符显示后,打开字符画显示相当于原图的好几倍大,不要用记事本打开,建议用notepad++等软件打开) 生成字符画图片(背景颜色和画笔颜色代码里可设置调节) 新建普通java 项目,Java单类实现代码,复制到java项目中,用idea编辑器 主方法运行.(引入的Class 都是JDK中自有的) import javax.imageio.ImageIO; import j

  • Java人民币小写转大写字符串的实现

    写了一个人民币小写转大写的方法,Java版本,思路很简单,没有测出什么Bug,有bug欢迎反馈 public class RMBChange { private static String[] nums = {"零", "壹", "贰", "叁", "肆", "伍", "陆", "柒", "捌", "玖"};

  • Java实战之城市多音字处理

    一.需求 对城市名称转化为拼音的时候,当遇到多音字城市的时候,转化拼音就不是我们想要的了. 使用  pinyin4j 无法直接解决这个问题. .网上有很多维护多音字信息的,觉得麻烦. 如: 长沙 ====>"zhangsha" 厦门===>"shamen" 重庆===>"zhongqing" 二.导入 jpinyin 版本自选 <!-- https://mvnrepository.com/artifact/com.gith

  • java实现遗传算法实例分享(打印城市信息)

    复制代码 代码如下: import java.util.*;public class Tsp {      private String cityName[]={"北京","上海","天津","重庆","哈尔滨","长春","沈阳","呼和浩特","石家庄","太原","济南","

  • 详解java中String值为空字符串与null的判断方法

    Java空字符串与null的区别 1.类型 null表示的是一个对象的值,而不是一个字符串.例如声明一个对象的引用,String a=null. ""表示的是一个空字符串,也就是说它的长度为0.例如声明一个字符串String s="". 2.内存分配 String a=null:表示声明一个字符串对象的引用,但指向为null,也就是说还没有指向任何的内存空间. String s="":表示声明一个字符串类型的引用,其值为""空

随机推荐