SPTS:单点文字定位
本文提出了 SPTS v2 框架,采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测,采用 PRD 进行文本识别。详细实验结果证明该方法可超越现有单点文本定位器的性能而实现 14 倍更快的推断速度。同时,实验还进一步展示了单点注释比非点注释和多边形边界框更为适合场景文本识别。
Jan, 2023
本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架,并通过一种新的识别转换机制,在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位,从而使该方法在多种数据集上显著优于现有方法。
Mar, 2022
介绍一种基于 transformer 的文本定位方法 TextTranSpotter (TTS),该方法可以在全监督和弱监督的情况下训练,并使用基于 Hungarian loss 的新型损失函数,不需要昂贵的本地化注释,通过每个单词检测学习单一潜在表示,实现了与先前最先进的全监督方法相当的性能。
Feb, 2022
本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型,并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验,展现出在场景文本检测和端到端文本识别任务方面的最新水平。
Jul, 2018
SwinTextSpotter v2 是一个新的端到端场景文字识别框架,通过引入 Recognition Conversion 和 Recognition Alignment 模块来加强文本检测和识别之间的关系,从而在各种多语言基准测试中取得了最先进的性能。
Jan, 2024
本文提出了一种名为 Text Perceptron 的端到端可训练文本检测方法,利用基于分割的高效检测器和新颖的形状变换模块,实现了文本检测和识别部分的全局优化,取得了在多个基准测试数据集上的优异性能表现。
Feb, 2020
该论文提出了一个基于端到端文本检测的点定位方法,通过定位文本边界上的一组点,建立了一种简单而有效的方案,可读取任意形状的文本,并在 ICDAR2015,TotalText 和 COCO-Text 三个数据集上展开实验,实验结果表明,该方法在场景文本检测和端到端文本识别任务上均超过了现有技术水平。
Nov, 2019
基于显式协同的文本识别 Transformer 框架 (ESTextSpotter) 在文本检测和识别中,通过建模区分性和交互特征,明显提高了性能。
Aug, 2023