Mar, 2024

EXAMS-V: 用于评估视觉语言模型的多学科多语言多模态考试基准

TL;DR我们推出了 EXAMS-V,一个新的多学科多模态多语言考试基准,用于评估视觉语言模型。它包含了 20932 个跨越自然科学、社会科学和其他各种学科的多项选择题,如宗教、美术、商务等。EXAMS-V 包含了多种多模态特征,例如文本、图像、表格、图表、图解、地图、科学符号和方程式。这些问题来自于 7 个语系的 11 种语言。与现有的基准不同,EXAMS-V 是通过收集各个国家的校园考试问题,采用多样化的教育体系进行精心策划的。这种独特的方法需要进行复杂的推理,涉及多种语言和地域特定的知识。解决数据集中的问题需要对文本和图像内容进行高级感知和联合推理。我们的评估结果表明,即使对于像 GPT-4V 和 Gemini 这样的先进视觉 - 文本模型,这也是一个具有挑战性的数据集;这凸显了数据集的内在复杂性以及作为未来基准的重要性。