May, 2024

HAAP: 基于视觉 - 上下文分层注意力自回归与自适应排列的场景文本识别

TL;DR本文提出了一种使用自适应置换的分级注意力自回归模型(HAAP)来增强位置 - 上下文 - 图像交互能力,从而改进了内部语言模型的自回归泛化。通过使用隐式置换神经元(IPN)生成自适应的注意力掩码,增加了训练数据的多样性,避免了模型对特定顺序的依赖,并减少了置换语言模型的训练开销。同时,通过交叉模态分级注意机制(CHA)将上下文和图像特征相结合,建立了丰富的位置语义依赖关系,避免了迭代细化操作。大量实验结果表明,所提出的 HAAP 在准确性、复杂性和延迟方面具有最先进的性能。