论文解读二十七:文本行识别模型的再思考

2021年11月21日 阅读数:13
这篇文章主要向大家介绍论文解读二十七:文本行识别模型的再思考,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。
摘要:本文研究了两个解码器(CTC[1]和 Transformer[2])和三个编码器模块(双向LSTM[3]、Self-Attention[4]和GRCL[5]),经过大量实验在普遍使用的场景和手写文本公共数据集上比较准确性和性能。

本文分享自华为云社区《论文解读二十七:文本行识别模型的再思考》,做者: wooheng。算法

1.引言

本文研究了文本行识别的问题。与大多数针对特定领域(例如场景文本或手写文档)的方法不一样,本文针对通用架构的通常问题进行研究,该模型结构不用考虑数据输入形式,能够从任何图像中提取文本。本文研究了两个解码器(CTC[1]和 Transformer[2])和三个编码器模块(双向LSTM[3]、Self-Attention[4]和GRCL[5]),经过大量实验在普遍使用的场景和手写文本公共数据集上比较准确性和性能。本文发现,迄今为止在文献中不多受到关注的组合,即与CTC 解码器结合Self-Attention编码器加上语言模型的结构,在公共和内部数据上进行训练时,其准确性和计算复杂度优于其余全部组合。与更常见的基于Transformer的模型不一样,这种架构能够处理任意长度的输入。网络

图1 数据集中的文本行示例图像,其中包含各类长度的手写、场景文本和文档文本图像。架构

2.模型结构

大多数最早进的文本行识别算法由三个主要组件组成:用于提取视觉特征的卷积主干;用于聚合部分或整个序列的特征的顺序编码器;最后是一个解码器,根据编码器输出产生最终转录。在本工做中研究了具备固定主干的编码器和解码器的不一样组合,并提出了一种最优的模型体系结构,模型结构见图2。函数

图2 模型结构。输入图像在馈送到主干以前被分割成带有双向填充的重叠块。生成的序列特征的有效部分在馈送到解码器以前被级联。性能

2.1 主干网络

本文的主干是一个等距架构[6],使用融合反转瓶颈层做为构建块,这是反转瓶颈层[7]的变体,它用全卷积取代可分离的结构,以提升模型推理效率。等距架构在全部层中保持恒定的内部分辨率,容许低激活内存占用空间,并使模型更容易自定义到专用硬件,并实现最高利用率。图3详细说明了网络。它由一个块大小为4的space-to-depth层组成,而后是11个融合反转瓶颈层,具备3×3内核和8×扩展速率,具备64个输出通道。应用最终的彻底卷积残差块将张量高度下降到1,做为输入送到编码器网络。学习

图3 实验中使用的主干。首先经过空间到深度操做将输入灰度图像的分辨率下降4倍,而后应用11个融合反转瓶颈层,扩展速率为8和64个输出通道,并使用残差卷积块将输出投影到高度为1的张量中。优化

2.2 编码器

Self-Attention编码器已被普遍用于许多NLP和视觉任务。做为图像到序列的任务,文本行识别也不例外。自我注意编码器能够有效地输出总结整个序列的特征,而不使用重复链接。主干网络的输出被馈送到编码器。编码特征Y计算为:编码

其中Q、K和V的三个参数W是大小为d×d的学习参数,它们分别将输入序列X投影到queries、keys和values中。编码特征Y是计算值V的凸组合,类似性矩阵由queries和keys的点积计算。url

本文使用4个独立的头,每一个头都使用多头注意力机制。隐藏层大小设置为256。为了防止过拟合,在每一个子层以后应用dropout,设置为0.1。增长正弦相对位置编码,使编码器位置感知。在本文的实验中,咱们经过将k个编码器层与以{四、八、十二、1六、20}数量堆叠,比较了不一样模型变化的精度和复杂性。spa

2.3 解码器

在CTC解码器以后加入语言模型,采用基于字符的N-gram语言模型使用最小错误率来训练优化特征函数的权重。

2.4 图片分块

因为自注意力层中的点积注意力影响,编码器的模型复杂性和内存占用率与图像宽度的函数比例呈二次增加。这会致使图片太长使得输入出现问题。缩小长图像能够避免这些问题,但它不可避免地会影响识别精度,特别是对于狭窄或紧密间隔的字符。

本文提出了一个简单而有效的分块策略,以确保模型在任意宽的输入图像上工做良好,而不会收缩(见图2)。本文将输入图像的大小调整为40像素高度,保留宽高比。而后,文本行被拆分为重叠的块,带有双向填充,以减小可能的边界效果(请注意,最后一个块有额外的填充,以确保用于批处理目的的统一形状)。本文将重叠的块馈送到主干和自注意力编码器中,以生成每一个块的序列特征。最后将有效区域合并回一个完整的序列,删除填充区域。

这种方法将长序列拆分为k个较短的块,有效地将模型复杂性和自注意力层的内存使用量下降了k倍。此策略在训练和推理时都使用,以保持行为一致。

3.实验结果

图4为实验结果,结果显示CTC 解码器结合Self-Attention编码器加上语言模型的结构,在公共和内部数据上进行训练时,其准确性和计算复杂度优于其余全部组合

图4 对选择模型结构在手写数据集和场景文本数据集上的评估结果。“Rect.”列指示模型是否包括矫正模块。“S-Attn”、“Attn”和“Tfmr Dec.”分别表明自我注意力机制、注意力机制和Transformer解码器。“MJ”,“ST”和“SA”分别表明MJSynth、SynthText 和SynthAdd数据集。

4.结论

在文本工做中,研究了具备表明性的编码器/解码器体系结构做为通用文本行识别器的性能。在解码器比较中,发现CTC与语言模型结合产生了总体优越的性能。在没有LM的状况下,CTC和Transformer具备竞争力,CTC在某些状况下占主导地位(GRCL),Transformer在其余状况下占主导地位(BiLSTM)。另外一方面,在编码器比较中,SelfAttention老是表现更好,在没有LM的状况下,两个解码器都一样好用。有趣的是,未经研究的SelfAttention/CTC+LM模型效果最好。本文一样代表,基于注意力的解码器仍然能够从外部语言模型中受益。研究具备变压器解码器的外部语言模型的有效性将是将来的工做。

本文还考虑了在样本分布中存在长图像所产生的问题。至少有两个新的方面须要考虑,效率和性能。因为图像长度的二次缩放,长图像会影响使用自注意力编码器的模型效率。本文证实,经过对图像进行分块,CTC模型能够解决这个问题,而不会形成性能损失。对固定最大宽度图像的训练会影响使用变压器解码器的模型对较长图像识别的性能。经过将图像大小调整到训练的宽度,虽然不能彻底消除,但能够缓解此问题。

参考文献

[1] Graves A, Fernández S, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. Proceedings of the 23rd international conference on Machine learning. 2006: 369-376.

[2] Bleeker M, de Rijke M. Bidirectional scene text recognition with a single decoder. arXiv preprint arXiv:1912.03656, 2019.

[3] Hochreiter S, Schmidhuber J. Long short-term memory. Neural computation, 1997, 9(8): 1735-1780.

[4] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in neural information processing systems. 2017: 5998-6008.

[5] Wang J, Hu X. Gated recurrent convolution neural network for ocr. Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 334-343.

[6] Sandler M, Baccash J, Zhmoginov A, et al. Non-discriminative data or weak model? on the relative importance of data and model resolution. Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. 2019: 0-0.

[7] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks. Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4510-4520.

 

点击关注,第一时间了解华为云新鲜技术~