ECCVSep, 2022

MUST-VQA: 多语言场景文本 VQA

TL;DR本文提出了一个用于处理零样本多语言场景文本视觉问答的框架,该框架首先引入了更加通用的 MUST-VQA,在受限环境下进行了两种评估场景的讨论,并证明了模型在零样本环境下的可行性,同时进一步展示了将多语言模型适应于 STVQA 任务的有效性。