Jun, 2024

CVQA:跨文化多语言视觉问答基准

TL;DR构建了 CVQA,一个新的多元文化多语言视觉问答基准,覆盖了 28 个国家的文化驱动图像和问题,包括 26 种语言和 11 种文字,共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试,显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件,并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。