MASTER: 场景文字识别的多方位非局部网络

Oct, 2019

MASTER: 场景文字识别的多方位非局部网络

MASTER: Multi-Aspect Non-local Network for Scene Text Recognition

Ning Lu, Wenwen Yu, Xianbiao Qi, Yihao Chen, Ping Gong...

TL;DR提出了一种基于自注意力的场景文本识别器 ——MASTER。相比于基于 RNN 的编码器 - 解码器体系结构，该模型通过学习 1d 或 2d 注意力来利用更紧凑的中间表示，在编码器和解码器内部学习自我注意力，从而解决了关注漂移和低效率的问题。

Abstract

attention-based scene text recognizers have gained huge success, which leverages a more compact intermediate representation to learn 1d- or 2d- attention by a RNN-based encoder-decoder architecture. However, such methods suffer from attention-drift problem because high similarity among

attention-based scene text recognition self-attention master efficiency

发现论文，激发创造

基于整体表征的引导注意力网络用于场景文字识别

本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法，训练时仅使用单词级别的注释，相比循环神经网络，能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。

Apr, 2019

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017

基于文本注意力的卷积神经网络用于场景文本检测

本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统，并通过多层和丰富的监督信息，包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终，该方法在 ICDAR 2013 数据集上取得了很好的效果。

Oct, 2015

聚焦注意力：自然图像中准确的文本识别

本文提出了一种名为 Focusing Attention Network 的方法，利用聚焦注意机制来消除针对复杂和 / 或低质量图像的 “注意力漂移” 现象，同时采用 ResNet-based 网络来丰富场景文本图像的深层表示，并在 IIIT5k、SVT 和 ICDAR 数据集上进行了实验，其结果表明 FAN 明显优于现有方法。

Sep, 2017

医学图像分割的多尺度自引导注意力

采用引导自我关注机制的卷积神经网络模型对医学图像进行语义分割，能够更好地捕捉图像中的上下文依赖关系，去除冗余的信息提取并集成本地特征和全局依赖，强调相关特征关联，从而取得更好的分割效果。

Jun, 2019

具多层上下文的带注意力机制的 RNN 用于场景标注

探索多级上下文循环神经网络的多种上下文提示，将其结合到分级卷积神经网络中，提供丰富的空间和语义信息，并使用注意力模型来有效地合并多个级别，以实现在图像标签方面的最新结果。

Jul, 2016

基于语义推理网络的准确场景文本识别

提出了一个新的基于语义推理网络的端到端的可训练框架，用于场景文本识别，其中引入了全局语义推理模块来通过多向并行传输捕获全局语义内容，具有比基于循环神经网络方法更快的速度。该方法在包括正常文本、不规则文本和非拉丁长文本在内的 7 个公共基准上取得了最先进的结果，验证了其有效性和鲁棒性。

Mar, 2020

使用金字塔注意网络的 Mask R-CNN 进行场景文字检测

本文提出了基于 Mask R-CNN 技术的文本检测新方法，应用金字塔注意力网络作为新的 Mask R-CNN 骨干网络以提高其特征表达能力，该方法可以统一地在自然场景图像中稳健地检测多定向和曲线文本，并在多种测试数据集上获得优越的性能。

Nov, 2018

使用注意力卷积序列建模技术识别场景文本

本文提出了基于注意力卷积网络的端到端场景文本识别方法，通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉，提高了识别效率，并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。

Sep, 2017

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020