SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

CVPRMar, 2022

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition

Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin...

TL;DR本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Abstract

end-to-end scene text spotting has attracted great attention in recent years due to the success of excavating the intrinsic synergy of the scene text detection and recognition. However, recent state-of-the-art methods usually incorporate detection and recognition simply by sharing the

end-to-end scene text spotting swinttextspotter transformer encoder text localization multi-lingual datasets

发现论文，激发创造

SwinTextSpotter v2：场景文字识别的协同优化

SwinTextSpotter v2 是一个新的端到端场景文字识别框架，通过引入 Recognition Conversion 和 Recognition Alignment 模块来加强文本检测和识别之间的关系，从而在各种多语言基准测试中取得了最先进的性能。

Jan, 2024

ESTextSpotter：基于 Transformer 的场景文字定位的显式协同

基于显式协同的文本识别 Transformer 框架 (ESTextSpotter) 在文本检测和识别中，通过建模区分性和交互特征，明显提高了性能。

Aug, 2023

自然场景下端到端文本识别

该研究提出了一种统一的网络，同时定位和识别文本，通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别，避免了中间过程，取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。

Jun, 2019

SPTS：单点文字定位

提出了一种新的场景文本识别方法，使用单点标注替代昂贵的边界框标注，将场景文本定位和识别视为序列预测任务，并使用自回归 Transformer 模型预测序列，可达到最先进的识别效果。

Dec, 2021

利用多语言数据集进行预训练的能力：提升文本定位性能

基于中间表示的领域自适应场景文本识别模型，以达到在各个领域中的高准确性和高效率。

Oct, 2023

Mask TextSpotter：一种端到端可训练神经网络，用于检测任意形状的文本

本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型，并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验，展现出在场景文本检测和端到端文本识别任务方面的最新水平。

Jul, 2018

TextFormer：一种基于查询的端对端混合监督文字定位器

TextFormer 提出了一种使用 Transformer 架构实现的查询式端到端文本定位算法，采用多任务建模的联合语义理解，并通过自适应全局聚合模块处理任意形状的文本，通过弱监督和全标注的语料库信息提升检测和端到端文本定位结果，实现了在双语数据集上的显著优势。

Jun, 2023

使用多任务变压器实现弱监督文本识别

介绍一种基于 transformer 的文本定位方法 TextTranSpotter (TTS)，该方法可以在全监督和弱监督的情况下训练，并使用基于 Hungarian loss 的新型损失函数，不需要昂贵的本地化注释，通过每个单词检测学习单一潜在表示，实现了与先前最先进的全监督方法相当的性能。

Feb, 2022

一种端到端的文本识别器：显式对齐与注意力机制

该研究提出了一种简单有效的框架，可以同时处理文字检测和识别，其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训，该方法在两个数据集上实现了新的最先进检测性能和表现提高。

Mar, 2018

SPTS v2：单点场景文本检测

本文提出了 SPTS v2 框架，采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测，采用 PRD 进行文本识别。详细实验结果证明该方法可超越现有单点文本定位器的性能而实现 14 倍更快的推断速度。同时，实验还进一步展示了单点注释比非点注释和多边形边界框更为适合场景文本识别。

Jan, 2023