自然场景下端到端文本识别

Jun, 2019

Towards End-to-End Text Spotting in Natural Scenes

Peng Wang, Hui Li, Chunhua Shen

TL;DR该研究提出了一种统一的网络，同时定位和识别文本，通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别，避免了中间过程，取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。

Abstract

text spotting in natural scene images is of great importance for many image understanding tasks. It includes two sub-tasks: text detection and recognition. In this work, we propose a unified network that simultan

text spotting text detection text recognition convolutional features $2$d attention model

发现论文，激发创造

基于卷积递归神经网络的端到端文本定位

该论文提出了一种基于卷积循环神经网络的统一网络，该网络可以同时定位和识别文本，通过端到端训练，提高了性能，在多个基准数据集上取得了竞争性的表现。

Jul, 2017

一种端到端的文本识别器：显式对齐与注意力机制

该研究提出了一种简单有效的框架，可以同时处理文字检测和识别，其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训，该方法在两个数据集上实现了新的最先进检测性能和表现提高。

Mar, 2018

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

使用卷积神经网络从自然场景中读取文本

本研究介绍了一种基于卷积神经网络的端到端文本识别、图像检索系统，使用了一些新颖的深度学习技术实现文本定位、识别、筛选和排序，在多个基准测试数据集上获得了最先进的性能表现，并应用于新闻视频检索中。

Dec, 2014

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

基于全卷积网络的多方向文本检测

该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法，通过综合考虑本地和全局线索，以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设，并使用另一个卷积神经网络分类器预测每个字符的质心，以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面，该方法实现了最先进的性能。

Apr, 2016

SwinTextSpotter v2：场景文字识别的协同优化

SwinTextSpotter v2 是一个新的端到端场景文字识别框架，通过引入 Recognition Conversion 和 Recognition Alignment 模块来加强文本检测和识别之间的关系，从而在各种多语言基准测试中取得了最先进的性能。

Jan, 2024

TextNet：端到端训练的网络，用于从图像中读取不规则文本

提出了一种名为 TextNet 的端到端训练网络结构，能够同时从图像中定位和识别不规则文本，并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示，所提出的 TextNet 在标准基准上取得了最先进的性能，并且在不规则数据集上优于现有方法。

Dec, 2018

只需边界：面向任意形状的文本识别

该论文提出了一个基于端到端文本检测的点定位方法，通过定位文本边界上的一组点，建立了一种简单而有效的方案，可读取任意形状的文本，并在 ICDAR2015，TotalText 和 COCO-Text 三个数据集上展开实验，实验结果表明，该方法在场景文本检测和端到端文本识别任务上均超过了现有技术水平。

Nov, 2019

Mask TextSpotter：一种端到端可训练神经网络，用于检测任意形状的文本

本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型，并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验，展现出在场景文本检测和端到端文本识别任务方面的最新水平。

Jul, 2018