Jul, 2023

场景文本识别的上下文感知并行解码器

TL;DR场景文本识别方法一直在追求高准确率和快速推断速度。本文通过经验研究发现,自回归解码在提供视觉上下文感知方面比语言建模更有效。因此,提出了上下文感知并行解码器(CPPD),它在单次解码中构建了一个稳健的上下文,使得其准确率和推断速度较传统方法显著提高。