May, 2021

场景文本识别的原始表示学习

TL;DR使用基本表示学习方法来处理多方向场景文本,通过构建一个基本表示学习神经网络和图卷积网络来实现。把学习到的视觉文本表示和 2D 注意力机制的编码 - 解码模型结合起来,提出了一个 PREN2D 框架,该框架在英文和中文场景文本识别任务中实现了最先进的表现。