Jun, 2024

CVQA:跨文化多语言视觉问答基准

TL;DR构建了CVQA,一个新的多元文化多语言视觉问答基准,覆盖了28个国家的文化驱动图像和问题,包括26种语言和11种文字,共提供了9k个问题。针对CVQA对几种多模态大型语言模型进行了基准测试,显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件,并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。