CVPRMar, 2022

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

TL;DR本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架,并通过一种新的识别转换机制,在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位,从而使该方法在多种数据集上显著优于现有方法。