字符区域关注网络用于文本检测

ECCVJul, 2020

Character Region Attention For Text Spotting

Youngmin Baek, Seung Shin, Jeonghun Baek, Sungrae Park, Junyeop Lee...

TL;DR本研究将文本检测和识别模块融合，并采用基于注意力机制的解码器，通过利用角色评分图来更好地关注字符中心点，实现了一种紧密耦合的单管道模型，扩展了开放式直线和曲线基准数据集的最新性能。

Abstract

A scene text spotter is composed of text detection and recognition modules. Many studies have been conducted to unify these modules into an end-to-end trainable model to achieve better performance. A typical arch

scene text spotter text detection text recognition attention-based decoder end-to-end trainable model

发现论文，激发创造

一种端到端的文本识别器：显式对齐与注意力机制

该研究提出了一种简单有效的框架，可以同时处理文字检测和识别，其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训，该方法在两个数据集上实现了新的最先进检测性能和表现提高。

Mar, 2018

自然场景下端到端文本识别

该研究提出了一种统一的网络，同时定位和识别文本，通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别，避免了中间过程，取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。

Jun, 2019

文本检测的字符区域认知

提出了一种使用神经网络 2 来检测场景文本的新方法，在字符级别推断文本区域，采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性，也解决了缺少单独字符级别注释的问题，在 6 个基准测试上广泛的实验中，包括在自然图像中包含高度曲线文本，如 TotalText 和 CTW-1500 数据集，证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果，我们的方法保证了在检测复杂的场景文本图像（如任意定向，曲线或变形文本）方面具有高度的灵活性。

Apr, 2019

MANGO: 一种基于掩膜注意力引导的一阶段场景文本识别器

本研究提出了一种名为 MANGO 的新型文本识别模型，其采用遮罩注意力指导的一阶段文本识别框架，可以直接识别无需 ROI 操作的字符序列，并在不同角度、不同排列方式的文本定位任务中取得了新的最优表现。

Dec, 2020

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

具有区域注意力的单 Shot 文本检测器

本研究提出了一种新颖的单步文字检测器，该检测器直接在自然图像中输出单词级别的边界框。通过自动学习的注意力映射，我们提出了一种注意机制，粗略地识别文本区域。此外，我们还开发了分层 Inception 模块，可以有效地聚合多尺度 Inception 特征，从而使该检测器能够可靠地在单尺度图像上处理多尺度和多方向文本。我们的文本检测器在 ICDAR 2015 基准测试中取得了 77％的 F-measure，超越了先前研究的最新成果。

Sep, 2017

基于文本注意力的卷积神经网络用于场景文本检测

本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统，并通过多层和丰富的监督信息，包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终，该方法在 ICDAR 2013 数据集上取得了很好的效果。

Oct, 2015

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017

TextScanner: 有序读取字符用于强式场景文字识别

本文提出了一种基于 Semantic Segmentation 和 RNN-attention 的新方法 TextScanner，用于场景中的文字识别，并在标准基准数据集上得到了最佳结果，尤其是在中文识别方面。

Dec, 2019