GEM: 多模态任务通用评估基准

ACLJun, 2021

GEM: A General Evaluation Benchmark for Multimodal Tasks

Lin Su, Nan Duan, Edward Cui, Lei Ji, Chenfei Wu...

TL;DR本文介绍了一个新的多模态任务的通用评估基准 GEM，它是一个大规模的视觉 - 语言基准，由包括图像 - 语言任务和视频 - 语言任务的 GEM-I 和 GEM-V 组成，并标记有多种语言的数据集。我们还为此基准提供了两个基准模型，旨在推动多语言多模态研究的发展。

Abstract

In this paper, we present gem as a General Evaluation benchmark for multimodal tasks. Different from existing datasets such as GLUE, SuperGLUE, XGLUE and XTREME that mainly focus on natural language tasks,

gem multimodal tasks vision-language dataset baseline models multilingual

发现论文，激发创造

仅需一行代码的多语言自然语言生成基准测试 GEMv2

为了更方便地遵循最佳模型评估实践，我们引入了 GEMv2，它为数据集、模型和度量开发人员提供了一种模块化基础设施，可以受益于彼此的工作，并支持 51 种语言的 40 个数据集的模型在线评估。

Jun, 2022

多模式生成嵌入模型

多模态生成嵌入模型能够同时处理多模态任务，在效率上具有竞争力，具备良好的图像标题生成和文本图像检索能力。

May, 2024

MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准

该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。

Apr, 2024

GEM 基准测试：自然语言生成、评估及度量

介绍了一个名为 GEM 的用于自然语言生成（NLG）及其评估和指标的活跃基准。GEM 提供了一个环境，使得模型可以被应用于广泛的任务，并且可以测试评估策略。该基准将定期更新以更多的支持多语言，并与模型一起推进挑战，欢迎整个 NLG 社区参与我们在 ACL 2021 工作坊中组织的共享任务的数据描述。

Feb, 2021

IGLUE：跨模态、跨任务和跨语言的迁移学习基准

本研究介绍了一个跨越 20 种语言的多模式多语言标准化测试集，用于评估多语言多模式的迁移学习效果，结果表明翻译测试优于零射击传递，只有很少的无标签文本数据可用于预训练，而且源语言和目标语言之间的距离对成绩的影响较小。

Jan, 2022

Video-MME: 多模式语言模型在视频分析中的首个综合评估基准

在这篇论文中，我们介绍了 Video-MME，这是第一个全方位的、多模式评估基准测试，用于评估 MLLMs 在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种 MLLMs，并发现商业模型 Gemini 1.5 Pro 的性能最佳，明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。

May, 2024

推进几何问题求解：多模型评估的全面基准

通过 MM-MATH 数据集，该研究旨在评估多模态模型在几何计算领域的性能，发现当前模型从图像中解析和解释几何信息存在显著不足，强调评估方法应包括推理和过程正确性，以填补文本和图像理解方面的关键差距，以此激发进一步研究和发展，推动多模态模型能力的提升。

Apr, 2024

在线视觉问答中 GPT-4V 和 Gemini 的评估

我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型，并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据，我们分析了 GPT-4V 和 Gemini 的零样本性能，并确定了这两个模型的最具挑战性的问题。

Dec, 2023

EXAMS-V: 用于评估视觉语言模型的多学科多语言多模态考试基准

我们推出了 EXAMS-V，一个新的多学科多模态多语言考试基准，用于评估视觉语言模型。它包含了 20932 个跨越自然科学、社会科学和其他各种学科的多项选择题，如宗教、美术、商务等。EXAMS-V 包含了多种多模态特征，例如文本、图像、表格、图表、图解、地图、科学符号和方程式。这些问题来自于 7 个语系的 11 种语言。与现有的基准不同，EXAMS-V 是通过收集各个国家的校园考试问题，采用多样化的教育体系进行精心策划的。这种独特的方法需要进行复杂的推理，涉及多种语言和地域特定的知识。解决数据集中的问题需要对文本和图像内容进行高级感知和联合推理。我们的评估结果表明，即使对于像 GPT-4V 和 Gemini 这样的先进视觉 - 文本模型，这也是一个具有挑战性的数据集；这凸显了数据集的内在复杂性以及作为未来基准的重要性。

Mar, 2024

MMBench: 您的多模型是否是全能选手？

提出了一种新的多模式基准测试方法 MMBench，通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估，旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。

Jul, 2023