SPTS v2：单点场景文本检测

Jan, 2023

SPTS v2: Single-Point Scene Text Spotting

Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang...

TL;DR本文提出了 SPTS v2 框架，采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测，采用 PRD 进行文本识别。详细实验结果证明该方法可超越现有单点文本定位器的性能而实现 14 倍更快的推断速度。同时，实验还进一步展示了单点注释比非点注释和多边形边界框更为适合场景文本识别。

Abstract

End-to-end scene text spotting has made significant progress due to its intrinsic synergy between text detection and recognition. Previous methods commonly regard manual annotations such as horizontal rectangles, rotated rectangles, quadrangles,and polygons as a prerequisite, which are

text spotting single-point annotation auto-regressive transformer instance assignment decoder parallel recognition decoder

发现论文，激发创造

SPTS：单点文字定位

提出了一种新的场景文本识别方法，使用单点标注替代昂贵的边界框标注，将场景文本定位和识别视为序列预测任务，并使用自回归 Transformer 模型预测序列，可达到最先进的识别效果。

Dec, 2021

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

SwinTextSpotter v2：场景文字识别的协同优化

SwinTextSpotter v2 是一个新的端到端场景文字识别框架，通过引入 Recognition Conversion 和 Recognition Alignment 模块来加强文本检测和识别之间的关系，从而在各种多语言基准测试中取得了最先进的性能。

Jan, 2024

从单点到多边形的场景文本渐进式演变

通过使用合成的识别信息，我们提出了 Point2Polygon 方法，将单点标注高效地转换为紧凑的多边形，并通过广泛实验证明了生成多边形的准确性。

Dec, 2023

基于序列生成的统一场景文本识别

提出一种名为 UNITS 的统一文本识别模型，该模型能够检测任意形状的文本，并利用起始点提示技术从任意起始点提取文本，相较于现有技术表现更具竞争力。

Apr, 2023

You Only Recognize Once: 面向快速视频文本定位

本文提出了一种快速且强健的视频文本识别框架，通过一次性识别局部文本，避免了针对每一帧的文本识别，使用文本推荐器从文本流中选择高质量文本并仅对其进行识别，大大加快了视频文本识别的速度，在公共基准测试中实现了显著的最先进效果，并推出了一个促进视频文本识别社区发展的数据集（LSVTD）.

Mar, 2019

DPText-DETR: 基于 Transformer 与动态点的更好的场景文本检测

本文提出了一种 DPText-DETR 算法，利用明确的点坐标直接生成位置查询，并动态地以渐进的方式更新它们。同时，提出了一种增强的分解自我注意力模块，为每个实例提供具有圆形形状指导的点查询，以及一种简单而有效的位置标签形式来解决之前形式的副作用，在 500 个手动标记的图像上进行了实验证明了本方法在各种基准测试中的高训练效率、鲁棒性和最先进性能。

Jul, 2022

Mask TextSpotter v3：面向鲁棒性场景文本检测的分割网络

该研究提出了一种名为 Mask TextSpotter v3 的新的场景文本识别算法，采用 Segmentation Proposal Network（SPN）代替 RPN，从而可以更准确和有效地识别和处理极端宽高比或不规则形状的文本实例，并且识别精度不会受到附近文本或背景噪声的干扰。在多个数据集上的实验中，该算法已实现最优性能。

Jul, 2020

ESTextSpotter：基于 Transformer 的场景文字定位的显式协同

基于显式协同的文本识别 Transformer 框架 (ESTextSpotter) 在文本检测和识别中，通过建模区分性和交互特征，明显提高了性能。

Aug, 2023

TextBoxes++：一种单次定向场景文本检测器

本文提出了一种名为 TextBoxes ++ 的端到端可训练的快速场景文本检测器，它可以在单个网络正向传递中检测任意方向的场景文本，并在检测精度和运行时方面优于竞争方法。

Jan, 2018