EXAMS-V: 用于评估视觉语言模型的多学科多语言多模态考试基准

Mar, 2024

EXAMS-V: 用于评估视觉语言模型的多学科多语言多模态考试基准

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

Rocktim Jyoti Das, Simeon Emilov Hristov, Haonan Li, Dimitar Iliyanov Dimitrov, Ivan Koychev...

TL;DR我们推出了 EXAMS-V，一个新的多学科多模态多语言考试基准，用于评估视觉语言模型。它包含了 20932 个跨越自然科学、社会科学和其他各种学科的多项选择题，如宗教、美术、商务等。EXAMS-V 包含了多种多模态特征，例如文本、图像、表格、图表、图解、地图、科学符号和方程式。这些问题来自于 7 个语系的 11 种语言。与现有的基准不同，EXAMS-V 是通过收集各个国家的校园考试问题，采用多样化的教育体系进行精心策划的。这种独特的方法需要进行复杂的推理，涉及多种语言和地域特定的知识。解决数据集中的问题需要对文本和图像内容进行高级感知和联合推理。我们的评估结果表明，即使对于像 GPT-4V 和 Gemini 这样的先进视觉 - 文本模型，这也是一个具有挑战性的数据集；这凸显了数据集的内在复杂性以及作为未来基准的重要性。

Abstract

We introduce exams-v, a new challenging multi-discipline multimodal multilingual exam benchmark for evaluating vision language models. It consists of 20,932 →

exams-v multi-discipline multimodal multilingual exam benchmark vision language models multiple-choice questions education systems

发现论文，激发创造

EXAMS：多语种跨语言问题回答的多科目高中考试数据集

提出了 EXAMS—— 高中跨语言和多语言问答的新基准数据集。收集了超过 24,000 个高质量的高中考试问题，涵盖了 8 个语言家族和 24 个学科，其中包括自然科学和社会科学等。

Nov, 2020

M3Exam：一个用于检验大型语言模型的多语言、多模态、多级别基准

该论文介绍了一种利用人类考试题目来全面评估大型语言模型（LLMs）的基准测试 M3Exam，该测试具有多语言、多模态和多级结构的特点，在低资源和非拉丁语文本方面，当前模型（包括 GPT-4）仍然难以应对多语言文本，同时多模态 LLMs 在复杂多模态问题上表现不佳。

Jun, 2023

使用 MATH-Vision 数据库测量多模态数学推理

我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力，并发现目前的模型在 MATH-V 数据集上与人类表现存在明显差距，强调了对大规模多模态模型的进一步发展的必要性，此外，我们的详细分类还允许对其错误进行全面分析，为未来的研究和开发提供有价值的见解。

Feb, 2024

评估 GPT-4 在巴西大学入学考试中的视觉能力

通过综合文本和视觉元素，对语言模型在入学考试上进行评估的综合框架表明 GPT-4 在处理复杂多学科问题方面具有最先进的能力，但数学问题仍然是这些模型的挑战。

Nov, 2023

GEM: 多模态任务通用评估基准

本文介绍了一个新的多模态任务的通用评估基准 GEM，它是一个大规模的视觉 - 语言基准，由包括图像 - 语言任务和视频 - 语言任务的 GEM-I 和 GEM-V 组成，并标记有多种语言的数据集。我们还为此基准提供了两个基准模型，旨在推动多语言多模态研究的发展。

Jun, 2021

SciEx：基于人工评分和自动评分的科学考试大型语言模型评测

大型语言模型的基准评估 SciEx 提出，用于评估 LLM 在解决科学任务上的能力，并通过比较 LLM 和学生在 SciEx 上的表现，提出了 LLM 作为评分者的方法。

Jun, 2024

多模态理解排行榜：文本与图像

Multi 是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs 在 Multi 上取得了显著的进展，与其他 MLLMs 相比，GPT-4V 的准确率达到了 63.7%，Multi 不仅是一个强大的评估平台，也为专家级 AI 的发展铺平了道路。

Feb, 2024

MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准

该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。

Apr, 2024

VLSP2022-EVJVQA 挑战：多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA，用于评估多语言 VQA 系统或模型，并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果，其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。

Feb, 2023

CVQA：跨文化多语言视觉问答基准

构建了 CVQA，一个新的多元文化多语言视觉问答基准，覆盖了 28 个国家的文化驱动图像和问题，包括 26 种语言和 11 种文字，共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试，显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件，并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。

Jun, 2024