多目标矫正注意力网络用于场景文字识别

Jan, 2019

多目标矫正注意力网络用于场景文字识别

A Multi-Object Rectified Attention Network for Scene Text Recognition

Canjie Luo, Lianwen Jin, Zenghui Sun

TL;DR本文提出了一种用于识别不规则文本的多对象校正注意网络（MORAN），其中包含多对象校正网络和基于注意力的序列识别网络，用于进行弱监督学习，可以有效地识别场景文字，取得了最先进的性能。

Abstract

Irregular text is widely used. However, it is considerably difficult to recognize because of its various shapes and distorted patterns. In this paper, we thus propose a multi-object rectified attention network (moran) for general scene text recognition. The →

moran multi-object rectification network attention-based sequence recognition network irregular text recognition fractional pickup method

发现论文，激发创造

基于整体表征的引导注意力网络用于场景文字识别

本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法，训练时仅使用单词级别的注释，相比循环神经网络，能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。

Apr, 2019

AON：面向任意方向的文本识别

本文介绍了一种用于识别自然图像中非规则排列文字的新方法，称为任意方向网络（AON），它采用深度学习技术和注意力解码器来生成字符序列，并在多个数据集上取得了最新的性能。

Nov, 2017

基于对称约束的场景文本矫正网络

本文提出一种基于对称约束的矫正网络（ScRN），利用文本实例的局部属性（如中心线、比例和方向）来生成更好的校正结果，从而实现对正常和不规则形状文本的高识别精度。该方法在包含相当比例的不规则文本实例的数据集（例如 ICDAR 2015、SVT-Perspective 和 CUTE80）上，优于现有算法。

Aug, 2019

自动矫正的鲁棒场景文本识别

我们提出了 RARE（具有自动矫正的强韧文本识别器），这是一种专门设计的深度神经网络，用于识别不规则文本，并能在多种基准测试上取得最先进或高度竞争性的表现。

Mar, 2016

使用 2D 自注意力网络识别任意形状的文本

这篇论文提出了一种名为 SATRN 的新型体系结构，受 Transformer 启发，利用自注意机制描述场景文本图像中字符的二维空间依赖性，能够识别任意形状的文本，效果可以打败现有的 STR 模型，尤其是在 “不规则文本” 基准测试中表现得非常出色。

Oct, 2019

2D 基于注意力机制的不规则场景文字识别器

该研究提出了一种通过二维注意力机制将不规则文本转换为字符序列的框架，利用关系注意力模块和并行注意力模块提高识别精度和速度。实验证明该方法有效地识别文本，并在准确度和速度方面优于之前的方法。

Jun, 2019

TextNet：端到端训练的网络，用于从图像中读取不规则文本

提出了一种名为 TextNet 的端到端训练网络结构，能够同时从图像中定位和识别不规则文本，并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示，所提出的 TextNet 在标准基准上取得了最先进的性能，并且在不规则数据集上优于现有方法。

Dec, 2018

面向空间变形鲁棒的文本关注网络用于场景文本图像超分辨率

本论文介绍了基于 CNN 的文本超分辨率方法，其中包括文本识别、文本先验信息提取和全局注意机制等技术，并通过在 TextZoom 数据集上的实验验证了该方法的良好性能和准确性。

Mar, 2022

聚焦注意力：自然图像中准确的文本识别

本文提出了一种名为 Focusing Attention Network 的方法，利用聚焦注意机制来消除针对复杂和 / 或低质量图像的 “注意力漂移” 现象，同时采用 ResNet-based 网络来丰富场景文本图像的深层表示，并在 IIIT5k、SVT 和 ICDAR 数据集上进行了实验，其结果表明 FAN 明显优于现有方法。

Sep, 2017

使用金字塔注意网络的 Mask R-CNN 进行场景文字检测

本文提出了基于 Mask R-CNN 技术的文本检测新方法，应用金字塔注意力网络作为新的 Mask R-CNN 骨干网络以提高其特征表达能力，该方法可以统一地在自然场景图像中稳健地检测多定向和曲线文本，并在多种测试数据集上获得优越的性能。

Nov, 2018