详解提升场景文本识别中的语言模型

2025-02-03 23:18:30

一、语言模型定义

1. 什么是语言模型？

如图1所示，顾名思义，语言模型即根据当前语境的上下文推断当前句子的意思。具体的标准定义为：对于语言序列w1,w2,…wn，语言模型就是计算该序列的概率即P(w1,w2,…wn)。

2. 为什么需要语言模型？

文本图像中包含两层信息：视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘，时常会导致错误的文本识别结果（之后会详细说明）。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。

3. 统计语言模型（n-gram）

由链式法则可以得到:

可以通过采用极大似然估计来计算每个词出现的条件概率，但是对于任意长的自然语言语句，根据极大似然估计直接计算P(wn|w1,w2,…wn-1)显然不现实（计算量太大）。因此为了解决这个问题，n-gram语言模型引入马尔可夫假设(Markov assumption)，即假设当前词出现的概率只依赖于前 n-1 个词，可以得到：

n=1 unigram:

n=2 bigram:

…

因此，综上可以看出，基于n-gram的语言模型有如下优点：1）完全包含了前n-1个词的全部信息。2）可解释性强。对应也有缺点：1）缺乏长期依赖关系。2）参数空间随着n增大指数型增长。3）单纯的基于统计频次，泛化能力差。

二、基于深度学习的解决思路

在目前基于深度学习的语言模型结构主要包括三个类别：基于RNN的语言模型，基于CNN的语言模型和基于Transformer的语言模型。接下来我会对它们进行依次介绍，并且逐一分析他们的优缺点。

1．通过RNN的语言模型结构

图2基于RNN的语言模型结构

随着深度学习的发展，在受到NLP(Natural Language Processing)等任务的启发，Lee等人[1]在视觉特征建模之后，通过引入RNN(Recurrent Neural Networks)代替传统的n-gram进行语言模型建模（图2所示）。RNN通过自回归的方式(Auto Regression)，在t时间步读取的是t-1步的状态，即预测当前时间步时会考虑上一时间步的信息，同时通过注意力的方式在glimpse向量中关注对应位置字符的视觉信息。该方法省去了繁琐的n-gram计算过程，在目前的场景文本识别框架中占据了主导的地位。

但是基于RNN的语言模型结构存在2个问题：1）梯度消失/爆炸的问题。2）串行计算效率慢。因此，最近的方法对RNN的语言建模方式进行了改进（上下文记忆力差的问题，因为在部分最近的工作中证明对中/短文本影响不大，所以在这里没有考虑）。

2. 通过CNN的语言模型结构

图3 视觉和语言模型集成的网路框架

图4 基于CNN的语言模型结构

为了避免了由RNN造成的梯度消失/爆炸的问题，Fang等人[2]采用了全卷积神经网络的结构，并通过一个并行的分支单独学习语言信息（图3），通过将视觉和语言信息集成的方法提升了识别结果。

基于CNN的语言模型如图4所示，给定 ,输出向量由下式获得：

sk-2和 sk-1是之前时间步对应的向量，因此，该结构可以看成一个近似的bigram语言模型。但是由于该语言模型也是串行的操作过程，导致其计算效率也较慢。

3. 通过Transformer的语言模型结构

图5 视觉语言模型解耦的网络结构

图6 基于transformer的语言模型结构

Yu等人[3]将语言模型从视觉部分解耦，然后在两个独立的结构中分别进行进行视觉和语言模型的建模，最后通过融合视觉和语言信息进行文本预测（图5所示）。在语言模型部分，该方法采用了Transformer的结构（图6所示），通过Transformer中的mask来模拟语言结构中的顺序和逆序的建模过程，最终自适应地融合视觉和语言信息进行识别。由于Transformer的结构特点，识别过程不同的时间步并行操作，提升了识别效率。

三、语言模型的问题

图7 语言信息帮助提升识别结果的效果图（上：没有语言模型。下：加入语言模型。）

语言模型能够帮助在视觉信息不充足的情况下，提升识别的结果。如图7所示，语言模型提取的语言信息能够有效地帮助在视觉缺失，模糊，噪声的情况下实现准确的识别结果。虽然语言模型提升效果显著，但是也存在着以下几个问题：1）OC(outside vocabulary)问题。2）计算复杂度高。

针对OC问题，Wan等人[4]指出了目前基于注意力的方法容易在训练集中没有出现过的词汇中识别错误，且精度和在测试过程中使用训练集中出现过的词汇的效果之间gap远大于基于分割的识别方法，因此如何获得一个鲁棒的语言模型是一种挑战。对于计算量问题，虽然目前Transformer应用于识别是一种趋势，且能够通过并行计算提升识别效率，但是对于长文本的识别，其计算量增加明显（RNN为线性增长，Transformer为平方增长）。

四、未来展望

语言模型最近是场景文本识别领域比较热门的研究方向，在我看来语言模型部分以后的研究大致会分为两个方向：1）结构。即如何通过搭建更强壮的语言模型捕捉更鲁邦的语言信息。2）能力。如何降低OC问题的影响。3）计算量。如何在低计算量的前提下提取有效的语言信息。

最近的方法中，仅通过捕捉视觉特征也能取得不错的效果（基于视觉特征匹配[5]）。对于无序的识别（车牌识别），Yue等人[6]引入了位置信息增强视觉特征进行识别。因此，在作者看来，未来的文本识别发展一定是多元化的，即视觉和语言模型并行发展，针对不同的具体任务会有不同的改进。

以上就是详解提升场景文本识别中的语言模型的详细内容，更多关于提升场景文本识别中的语言模型的资料请关注我们其它相关文章！

python实现的人脸识别打卡系统

项目地址: https://github.com/king-xw/Face_Recogntion 简介本仓库是使用python编写的一个简单的人脸识别考勤打卡系统主要功能有录入人脸信息.人脸识别打卡.设置上下班时间.导出打卡日志等下面是各模块截图首页录入人脸信息人脸识别打卡输出日志使用直接运行**==workAttendanceSystem==**.py即可主要代码 import datetime import time import win32api import win3
Go语言模型:string的底层数据结构与高效操作详解

Golang的string类型底层数据结构简单,本质也是一个结构体实例,且是const不可变. string的底层数据结构通过下面一个例子来看: package main import ( "fmt" "unsafe" ) // from: string.go 在GoLand IDE中双击shift快速找到 type stringStruct struct { array unsafe.Pointer // 指向一个 [len]byte 的数组 length in
Python2实现的图片文本识别功能详解

本文实例讲述了Python2实现的图片文本识别功能.分享给大家供大家参考,具体如下: 这里需要用到python的几个库,分别是pytesser,以及pytesser的依赖库PIL.python的版本建议用2.7或者2.7一下的都行,不建议用python3以上的,因为python3不向下兼容,所以有很多python2的东西它不支持 pytesser下载的话,我直接在pycharm里面下全是失败,用DOS的命令行下也是失败,所以还是自己直接去google下吧地址:http://code.googl
python神经网络编程之手写数字识别

写在之前首先是写在之前的一些建议: 首先是关于这本书,我真的认为他是将神经网络里非常棒的一本书,但你也需要注意,如果你真的想自己动手去实现,那么你一定需要有一定的python基础,并且还需要有一些python数据科学处理能力然后希望大家在看这边博客的时候对于神经网络已经有一些了解了,知道什么是输入层,什么是输出层,并且明白他们的一些理论,在这篇博客中我们仅仅是展开一下代码: 然后介绍一下本篇博客的环境等: 语言:Python3.8.5 环境:jupyter 库文件: numpy | matp
java+opencv实现人脸识别功能

背景:最近需要用到人脸识别,但又不花钱使用现有的第三方人脸识别接口,为此使用opencv结合java进行人脸识别(ps:opencv是开源的,使用它来做人脸识别存在一定的误差,效果一般). 1.安装opencv 官网地址:https://opencv.org/ , 由于官网下载速度是真的慢百度网盘: 链接: https://pan.baidu.com/s/1RpsP-I7v8pP2dkqALDw7FQ 提取码: pq7v 如果是官网下载,就无脑安装就行了,安装完毕后. 将图一的两个文件复制到图
Pytorch实现图像识别之数字识别(附详细注释)

使用了两个卷积层加上两个全连接层实现本来打算从头手撕的,但是调试太耗时间了,改天有时间在从头写一份详细过程看代码注释,参考了下一个博主的文章,但是链接没注意关了找不到了,博主看到了联系下我,我加上代码相关的问题可以评论私聊,也可以翻看博客里的文章,部分有详细解释 Python实现代码: import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transf
详解提升场景文本识别中的语言模型

一.语言模型定义 1. 什么是语言模型? 如图1所示,顾名思义,语言模型即根据当前语境的上下文推断当前句子的意思.具体的标准定义为:对于语言序列w1,w2,-wn,语言模型就是计算该序列的概率即P(w1,w2,-wn). 2. 为什么需要语言模型? 文本图像中包含两层信息:视觉纹理信息和语言信息.由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明).因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思
详解如何为SpringBoot项目中的自定义配置添加IDE支持

导言代码是写给人看的,不是写给机器看的,只是顺便计算机可以执行而已 --<计算机程序的构造和解释(SICP)> 导言在我们的项目里经常会出现需要添加自定义配置的应用场景,例如某个开关变量,在测试环境打开,在生产环境不打开,通常我们都会使用下面的代码来实现,然后在Spring Boot配置文件中添加这个key和Value Application.java: application.properties 或者是没有使用@Value而直接在XML中使用我们配置的属性值 application.x
详解Python OpenCV数字识别案例

前言实践是检验真理的唯一标准. 因为觉得一板一眼地学习OpenCV太过枯燥,于是在网上找了一个以项目为导向的教程学习.话不多说,动手做起来. 一.案例介绍提供信用卡上的数字模板: 要求:识别出信用卡上的数字,并将其直接打印在原图片上.虽然看起来很蠢,但既然可以将数字打印在图片上,说明已经成功识别数字,因此也可以将其转换为数字文本保存.车牌号识别等项目的思路与此案例类似. 示例: 原图处理后的图二.步骤大致分为如下几个步骤: 1.模板读入 2.模板预处理,将模板数字分开,并排序 3.输入
Python破解BiliBili滑块验证码的思路详解(完美避开人机识别)

准备工作 B站登录页 https://passport.bilibili.com/login python3 pip install selenium (webdriver框架) pip install PIL (图片处理) chrome driver:http://chromedriver.storage.googleapis.com/index.html firefox driver:https://github.com/mozilla/geckodriver/releases B站的滑块验
详解如何获取C#类中发生数据变化的属性信息

一.前言# 在平时的开发中,当用户修改数据时,一直没有很好的办法来记录具体修改了那些信息,只能暂时采用将类序列化成 json 字符串,然后全塞入到日志中的方式,此时如果我们想要知道用户具体改变了哪几个字段的值的话就很困难了.因此,趁着这个假期,就来解决这个一直遗留的小问题,本篇文章记录了我目前实现的方法,如果你有不同于文中所列出的方案的话,欢迎指出. 代码仓储地址:https://github.com/Lanesra712/ingos-common/tree/master/sample/csha
详解c++ atomic原子编程中的Memory Order

概述但是,基于内核对象的同步,会带来昂贵的上下文切换(用户态切换到内核态,占用1000个以上的cpu周期).就需要使用另一种方法 -- 原子指令. 仅靠原子技术实现不了对资源的访问控制,即使简单计数操作,看上去正确的代码也可能会crash. 这里的关键在于编译器和cpu实施的重排指令导致了读写顺序的变化.只要没有依赖,代码中在后面的指令就可能跑到前面去,编译器和CPU都会这么做. 注1:单线程代码不需要关心乱序的问题.因为乱序至少要保证这一原则:不能改变单线程程序的执行行为注2:内核对象多线
详解如何在Go服务中做链路追踪

目录 1. 使用全局 map 来实现 2. 使用 Context 来实现 3. 小结使用 Go 语言开发微服务的时候,需要追踪每一个请求的访问链路,这块在 Go 中目前没有很好的解决方案. 在 Java 中解决这个问题比较简单,可以使用 MDC,在一个进程内共享一个请求的 RequestId. 在 Go 中实现链路追踪有两种思路:一种是在项目中使用一个全局的 map, key 是 goroutine 的唯一 Id,value 是 RequestId,另一种思路可以使用 context.Cont
详解Java分布式缓存系统中必须解决的四大问题

目录缓存穿透缓存击穿缓存雪崩缓存一致性分布式缓存系统是三高架构中不可或缺的部分,极大地提高了整个项目的并发量.响应速度,但它也带来了新的需要解决的问题,分别是: 缓存穿透.缓存击穿.缓存雪崩和缓存一致性问题. 缓存穿透第一个比较大的问题就是缓存穿透.这个概念比较好理解,和命中率有关.如果命中率很低,那么压力就会集中在数据库持久层. 假如能找到相关数据,我们就可以把它缓存起来.但问题是,本次请求,在缓存和持久层都没有命中,这种情况就叫缓存的穿透. 举个例子,如上图,在一个登录系统中,有
详解如何在Go语言中调用C源代码

目录开坑说明内嵌形式外置的C代码 1. 构建libauth.a静态库 2. 对main.go稍加修改 3. 编译开坑说明最近在编写客户端程序或与其他部门做功能集成时多次碰到了跨语言的sdk集成,虽说方案很多诸如rpc啊,管道啊,文件io啊,unix socket啊之类的不要太多,但最完美的基础方式还是让程序与sdk结合到一起(个人观点,不喜勿喷),顺便研究了下在go调用标准c接口的种种方法与坑,内容不少,有空便慢慢更新了. 内嵌形式先让我们来看一个最简单的cgo实例 package
详解如何在Go语言中循环数据结构

目录如何在Go中循环字符串如何在Go中循环map结构如何在Go中循环Struct 数组是存储类似类型数据的强大数据结构.您可以通过索引识别和访问其中的元素. 在Golang中,您可以通过在0初始化变量i并增加变量直到它达到数组的长度,使用for循环循环数组. 它们的语法如下所示: for i := 0; i < len(arr); i++ { // perform an operation } 例如,让我们循环一个整数数组: package main import ( "fmt&qu