GEM: 多模态任务通用评估基准
为了更方便地遵循最佳模型评估实践,我们引入了 GEMv2,它为数据集、模型和度量开发人员提供了一种模块化基础设施,可以受益于彼此的工作,并支持 51 种语言的 40 个数据集的模型在线评估。
Jun, 2022
该研究介绍了 MMT-Bench,这是一个综合性评估基准,旨在评估大规模视觉 - 语言模型(LVLM)在多种跨领域的多模态任务上的能力,并促进下一代通用多模态智能基础模型的发展。
Apr, 2024
介绍了一个名为 GEM 的用于自然语言生成(NLG)及其评估和指标的活跃基准。GEM 提供了一个环境,使得模型可以被应用于广泛的任务,并且可以测试评估策略。该基准将定期更新以更多的支持多语言,并与模型一起推进挑战,欢迎整个 NLG 社区参与我们在 ACL 2021 工作坊中组织的共享任务的数据描述。
Feb, 2021
本研究介绍了一个跨越 20 种语言的多模式多语言标准化测试集,用于评估多语言多模式的迁移学习效果,结果表明翻译测试优于零射击传递,只有很少的无标签文本数据可用于预训练,而且源语言和目标语言之间的距离对成绩的影响较小。
Jan, 2022
在这篇论文中,我们介绍了 Video-MME,这是第一个全方位的、多模式评估基准测试,用于评估 MLLMs 在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种 MLLMs,并发现商业模型 Gemini 1.5 Pro 的性能最佳,明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。
May, 2024
通过 MM-MATH 数据集,该研究旨在评估多模态模型在几何计算领域的性能,发现当前模型从图像中解析和解释几何信息存在显著不足,强调评估方法应包括推理和过程正确性,以填补文本和图像理解方面的关键差距,以此激发进一步研究和发展,推动多模态模型能力的提升。
Apr, 2024
我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型,并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据,我们分析了 GPT-4V 和 Gemini 的零样本性能,并确定了这两个模型的最具挑战性的问题。
Dec, 2023
我们推出了 EXAMS-V,一个新的多学科多模态多语言考试基准,用于评估视觉语言模型。它包含了 20932 个跨越自然科学、社会科学和其他各种学科的多项选择题,如宗教、美术、商务等。EXAMS-V 包含了多种多模态特征,例如文本、图像、表格、图表、图解、地图、科学符号和方程式。这些问题来自于 7 个语系的 11 种语言。与现有的基准不同,EXAMS-V 是通过收集各个国家的校园考试问题,采用多样化的教育体系进行精心策划的。这种独特的方法需要进行复杂的推理,涉及多种语言和地域特定的知识。解决数据集中的问题需要对文本和图像内容进行高级感知和联合推理。我们的评估结果表明,即使对于像 GPT-4V 和 Gemini 这样的先进视觉 - 文本模型,这也是一个具有挑战性的数据集;这凸显了数据集的内在复杂性以及作为未来基准的重要性。
Mar, 2024
提出了一种新的多模式基准测试方法 MMBench,通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估,旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。
Jul, 2023