基于序列生成的统一场景文本识别

CVPRApr, 2023

基于序列生成的统一场景文本识别

Towards Unified Scene Text Spotting based on Sequence Generation

Taeho Kil, Seonghyeon Kim, Sukmin Seo, Yoonsik Kim, Daehee Kim

TL;DR提出一种名为 UNITS 的统一文本识别模型，该模型能够检测任意形状的文本，并利用起始点提示技术从任意起始点提取文本，相较于现有技术表现更具竞争力。

Abstract

sequence generation models have recently made significant progress in unifying various vision tasks. Although some auto-regressive models have demonstrated promising results in end-to-end text spotting, they use

sequence generation models text spotting units detection formats starting-point prompting

发现论文，激发创造

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

SPTS：单点文字定位

提出了一种新的场景文本识别方法，使用单点标注替代昂贵的边界框标注，将场景文本定位和识别视为序列预测任务，并使用自回归 Transformer 模型预测序列，可达到最先进的识别效果。

Dec, 2021

自然场景下端到端文本识别

该研究提出了一种统一的网络，同时定位和识别文本，通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别，避免了中间过程，取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。

Jun, 2019

朝着端到端的统一场景文本检测和布局分析

本论文提出了统一场景文本检测和布局分析任务，并介绍了一种能够同时检测场景文本和形成文本聚类的方法以及一个首个分层场景文本数据集，全面实验证明了所提出的统一模型在多个基线方法上实现了更好的性能，此外，该模型还在多个场景文本检测数据集上实现了最先进的结果，无需复杂的后处理。

Mar, 2022

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

SPTS v2：单点场景文本检测

本文提出了 SPTS v2 框架，采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测，采用 PRD 进行文本识别。详细实验结果证明该方法可超越现有单点文本定位器的性能而实现 14 倍更快的推断速度。同时，实验还进一步展示了单点注释比非点注释和多边形边界框更为适合场景文本识别。

Jan, 2023

在自然场景中检测任意形状文本的方法，改进文本识别

提出了一种基于流水线的文本识别框架 UHTA，其中包括用于检测的 UHT 和用于识别的 ASTER。在多个公共场景文本检测数据集上的实验结果表明，UHT 在检测自然场景图像中文本方面具有较好的性能和通用性。

Nov, 2019

Mask TextSpotter：一种端到端可训练神经网络，用于检测任意形状的文本

本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型，并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验，展现出在场景文本检测和端到端文本识别任务方面的最新水平。

Jul, 2018

SwinTextSpotter v2：场景文字识别的协同优化

SwinTextSpotter v2 是一个新的端到端场景文字识别框架，通过引入 Recognition Conversion 和 Recognition Alignment 模块来加强文本检测和识别之间的关系，从而在各种多语言基准测试中取得了最先进的性能。

Jan, 2024

只需边界：面向任意形状的文本识别

该论文提出了一个基于端到端文本检测的点定位方法，通过定位文本边界上的一组点，建立了一种简单而有效的方案，可读取任意形状的文本，并在 ICDAR2015，TotalText 和 COCO-Text 三个数据集上展开实验，实验结果表明，该方法在场景文本检测和端到端文本识别任务上均超过了现有技术水平。

Nov, 2019