通过阅读顺序估计和动态采样实现类似逆操作的场景文本定位

Jan, 2024

通过阅读顺序估计和动态采样实现类似逆操作的场景文本定位

Inverse-like Antagonistic Scene Text Spotting via Reading-Order Estimation and Dynamic Sampling

Shi-Xue Zhang, Chun Yang, Xiaobin Zhu, Hongyang Zhou, Hongfa Wang...

TL;DR提出了一种统一的端到端可训练的反向场景文本检测框架，通过创新的阅读顺序估计模块 (REM)、轻量级边界精化模块 (BRM) 和动态采样模块 (DSM) 实现了对复杂布局的反向场景文本的有效识别。

Abstract

scene text spotting is a challenging task, especially for inverse-like scene text, which has complex layouts, e.g., mirrored, symmetrical, or retro-flexed. In this paper, we propose a unified end-to-end trainable

scene text spotting inverse-like scene text end-to-end trainable reading-order estimation dynamic sampling module

发现论文，激发创造

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

SPTS v2：单点场景文本检测

本文提出了 SPTS v2 框架，采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测，采用 PRD 进行文本识别。详细实验结果证明该方法可超越现有单点文本定位器的性能而实现 14 倍更快的推断速度。同时，实验还进一步展示了单点注释比非点注释和多边形边界框更为适合场景文本识别。

Jan, 2023

SPTS：单点文字定位

提出了一种新的场景文本识别方法，使用单点标注替代昂贵的边界框标注，将场景文本定位和识别视为序列预测任务，并使用自回归 Transformer 模型预测序列，可达到最先进的识别效果。

Dec, 2021

高效利用语言先验进行场景文本定位

通过利用大型文本语料库中的语言知识，替换自回归场景文本定位和识别模型中传统的独热编码，提高了场景文本定位和识别性能，并实现了更准确的词语定位。

Feb, 2024

FOTS: 基于统一网络的快速文本定位

此篇论文介绍了一种基于 Fast Oriented Text Spotting (FOTS) 网络的端到端可训练的文本检测和识别方法。使用 RoIRotate 的共享计算和视觉信息策略获得了比两阶段方法更优越的表现，并且提出的方法在 ICDAR 2015、ICDAR 2017 MLT 和 ICDAR 2013 数据集上的实验结果表明其性能显著优于先前的最先进方法。

Jan, 2018

ESTextSpotter：基于 Transformer 的场景文字定位的显式协同

基于显式协同的文本识别 Transformer 框架 (ESTextSpotter) 在文本检测和识别中，通过建模区分性和交互特征，明显提高了性能。

Aug, 2023

OTS：一种用于历史手稿文本定位的单次学习方法

通过一种新颖的一次学习文本定位方法，即 One-shot learning-based Text Spotting (OTS) 方法，该方法结合了认知研究中的方法，通过空间对齐模块来找到并学习查询图像中最具有区分性的空间区域。同时，引入一种名为环形损失（Torus loss）的新型损失函数，使得嵌入距离空间更具有区分性。我们自己创建了包含古代东巴象形文字的手稿数据集，并在公开数据集上进行了实验，结果表明该方法在一次性文本定位方面优于现有方法。通过 OTS 方法，有望在历史手稿文本识别方面有更好的应用。

Apr, 2023

自然场景下端到端文本识别

该研究提出了一种统一的网络，同时定位和识别文本，通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别，避免了中间过程，取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。

Jun, 2019

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

BARET：基于平衡关注的实图像编辑引导目标文本逆转

通过目标文本翻译方案、渐进式过渡方案和平衡关注模块，我们提出了一种新的图像编辑技术，实现了包括非刚性编辑在内的各种编辑类型，并提高了图像编辑的效率和准确性。

Dec, 2023