Nov, 2023

VQA-GEN: 一个面向领域泛化的视觉问答基准

TL;DR视觉问题回答(VQA)模型旨在展示视觉和文本推理能力,然而,由于缺乏综合的基准数据集,它们在实际应用中受到了限制。我们提出了 VQA-GEN,这是第一个通过引入转换流程生成的多模态基准数据集,用于评估 VQA 在视觉和文本领域的转换能力。实验证明 VQA-GEN 数据集揭示了现有方法对于多模态转换的漏洞,验证了全面的多模态转换对于稳健的 VQA 泛化是至关重要的。在 VQA-GEN 上训练的模型展现了跨领域和领域内性能的提升,验证了 VQA-GEN 的价值。此外,我们分析了转换技术对模型泛化性能的重要性。