DeepSolo++：使用显式点筛选的 Transformer 解码器进行文本定位

CVPRMay, 2023

DeepSolo++：使用显式点筛选的 Transformer 解码器进行文本定位

DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Text Spotting

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu...

TL;DR本文提出 DeepSolo，它是一种类似于 DETR 的基线，旨在让一个单一的解码器同时实现文本检测和识别，深度展示了其方法的可扩展性和训练效率，并且可以用于英语场景和中文转录，并推出了 DeepSolo ++ 以进行多语言文本识别。

Abstract

end-to-end text spotting aims to integrate scene text detection and recognition into a unified framework. Dealing with the relationship between the two sub-tasks plays a pivotal role in designing effective spotters. Although →

end-to-end text spotting transformer-based methods deepsolo multilingual text spotting training efficiency

发现论文，激发创造

DeepSolo: 一种用显式点进行文本定位的 Transformer 解码器

文章介绍一种名为 DeepSolo 的模型，使用 ordered points 表达字符序列并训练一个 Decoder 进行文字检测和识别，同时还引入了更精确的监督信号提高训练效率，实验结果表明 DeepSolo 在公共基准测试中优于之前的最优方法，同时与线注释兼容。

Nov, 2022

ESTextSpotter：基于 Transformer 的场景文字定位的显式协同

基于显式协同的文本识别 Transformer 框架 (ESTextSpotter) 在文本检测和识别中，通过建模区分性和交互特征，明显提高了性能。

Aug, 2023

SPTS：单点文字定位

提出了一种新的场景文本识别方法，使用单点标注替代昂贵的边界框标注，将场景文本定位和识别视为序列预测任务，并使用自回归 Transformer 模型预测序列，可达到最先进的识别效果。

Dec, 2021

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

使用 Transformer 进行端到端的视频文本识别

本研究基于 Transformer 序列建模，提出了一个简单而有效的端到端视频文本识别框架 TransDETR，它能够同时处理文本检测、跟踪和识别，通过两个主要优点：1) 在长序列中使用文本查询跟踪和识别每个文本，2) 在四个视频文本数据集上验证 TransDETR 具有最先进的性能，其中视频文本识别任务性能提高了 8.0％左右。

Mar, 2022

SPTS v2：单点场景文本检测

本文提出了 SPTS v2 框架，采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测，采用 PRD 进行文本识别。详细实验结果证明该方法可超越现有单点文本定位器的性能而实现 14 倍更快的推断速度。同时，实验还进一步展示了单点注释比非点注释和多边形边界框更为适合场景文本识别。

Jan, 2023

DPText-DETR: 基于 Transformer 与动态点的更好的场景文本检测

本文提出了一种 DPText-DETR 算法，利用明确的点坐标直接生成位置查询，并动态地以渐进的方式更新它们。同时，提出了一种增强的分解自我注意力模块，为每个实例提供具有圆形形状指导的点查询，以及一种简单而有效的位置标签形式来解决之前形式的副作用，在 500 个手动标记的图像上进行了实验证明了本方法在各种基准测试中的高训练效率、鲁棒性和最先进性能。

Jul, 2022

使用多任务变压器实现弱监督文本识别

介绍一种基于 transformer 的文本定位方法 TextTranSpotter (TTS)，该方法可以在全监督和弱监督的情况下训练，并使用基于 Hungarian loss 的新型损失函数，不需要昂贵的本地化注释，通过每个单词检测学习单一潜在表示，实现了与先前最先进的全监督方法相当的性能。

Feb, 2022

文本检测变形金刚

本文提出了一种名为 TESTR 的通用的基于 Transformers 的端到端的文本检测与识别框架，其有效地解决了曲线文本框表示所需要的特殊关注的问题，并在曲线和任意形状的数据集上展现出最先进的性能。

Apr, 2022

一种端到端的文本识别器：显式对齐与注意力机制

该研究提出了一种简单有效的框架，可以同时处理文字检测和识别，其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训，该方法在两个数据集上实现了新的最先进检测性能和表现提高。

Mar, 2018