Dec, 2021

LaTr: 面向场景文本 VQA 的布局感知 Transformer

TL;DR提出了一种新的多模态体系结构 Layout-Aware Transformer(LaTr)来进行场景文本视觉问答(STVQA),并提出了一种单一目标的预训练方案,该方案仅需要文本和空间线索。 LaTr 通过将语言和布局信息联系起来,可以学习各种空间线索,从而提高了对 OCR 错误的鲁棒性,并在多个数据集上优于最先进的 STVQA 方法。