多目标矫正注意力网络用于场景文字识别
本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法,训练时仅使用单词级别的注释,相比循环神经网络,能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。
Apr, 2019
本文介绍了一种用于识别自然图像中非规则排列文字的新方法,称为任意方向网络(AON),它采用深度学习技术和注意力解码器来生成字符序列,并在多个数据集上取得了最新的性能。
Nov, 2017
本文提出一种基于对称约束的矫正网络(ScRN),利用文本实例的局部属性(如中心线、比例和方向)来生成更好的校正结果,从而实现对正常和不规则形状文本的高识别精度。该方法在包含相当比例的不规则文本实例的数据集(例如 ICDAR 2015、SVT-Perspective 和 CUTE80)上,优于现有算法。
Aug, 2019
我们提出了 RARE(具有自动矫正的强韧文本识别器),这是一种专门设计的深度神经网络,用于识别不规则文本,并能在多种基准测试上取得最先进或高度竞争性的表现。
Mar, 2016
这篇论文提出了一种名为 SATRN 的新型体系结构,受 Transformer 启发,利用自注意机制描述场景文本图像中字符的二维空间依赖性,能够识别任意形状的文本,效果可以打败现有的 STR 模型,尤其是在 “不规则文本” 基准测试中表现得非常出色。
Oct, 2019
该研究提出了一种通过二维注意力机制将不规则文本转换为字符序列的框架,利用关系注意力模块和并行注意力模块提高识别精度和速度。实验证明该方法有效地识别文本,并在准确度和速度方面优于之前的方法。
Jun, 2019
提出了一种名为 TextNet 的端到端训练网络结构,能够同时从图像中定位和识别不规则文本,并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示,所提出的 TextNet 在标准基准上取得了最先进的性能,并且在不规则数据集上优于现有方法。
Dec, 2018
本论文介绍了基于 CNN 的文本超分辨率方法,其中包括文本识别、文本先验信息提取和全局注意机制等技术,并通过在 TextZoom 数据集上的实验验证了该方法的良好性能和准确性。
Mar, 2022
本文提出了一种名为 Focusing Attention Network 的方法,利用聚焦注意机制来消除针对复杂和 / 或低质量图像的 “注意力漂移” 现象,同时采用 ResNet-based 网络来丰富场景文本图像的深层表示,并在 IIIT5k、SVT 和 ICDAR 数据集上进行了实验,其结果表明 FAN 明显优于现有方法。
Sep, 2017
本文提出了基于 Mask R-CNN 技术的文本检测新方法,应用金字塔注意力网络作为新的 Mask R-CNN 骨干网络以提高其特征表达能力,该方法可以统一地在自然场景图像中稳健地检测多定向和曲线文本,并在多种测试数据集上获得优越的性能。
Nov, 2018