May, 2023

生成再筛选:以世界知识为引导的开放式视觉问答

TL;DR本研究提出了一种新的 VQA 模型管道 RASO,利用预训练语言模型生成所有可能的答案,然后训练轻量级的答案选择模型,扩大了领域内数据的知识覆盖范围,并在不额外增加计算成本的基础上将 OK-VQA 的最新成果提高了 4.1%。