Nov, 2023
VQA-GEN: 一个面向领域泛化的视觉问答基准
VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization
TL;DR视觉问题回答(VQA)模型旨在展示视觉和文本推理能力,然而,由于缺乏综合的基准数据集,它们在实际应用中受到了限制。我们提出了VQA-GEN,这是第一个通过引入转换流程生成的多模态基准数据集,用于评估VQA在视觉和文本领域的转换能力。实验证明VQA-GEN数据集揭示了现有方法对于多模态转换的漏洞,验证了全面的多模态转换对于稳健的VQA泛化是至关重要的。在VQA-GEN上训练的模型展现了跨领域和领域内性能的提升,验证了VQA-GEN的价值。此外,我们分析了转换技术对模型泛化性能的重要性。