CVPRMay, 2023

DeepSolo++:使用显式点筛选的 Transformer 解码器进行文本定位

TL;DR本文提出 DeepSolo,它是一种类似于 DETR 的基线,旨在让一个单一的解码器同时实现文本检测和识别,深度展示了其方法的可扩展性和训练效率,并且可以用于英语场景和中文转录,并推出了 DeepSolo ++ 以进行多语言文本识别。