多模态大语言模型基准调查

Aug, 2024

A Survey on Benchmarks of Multimodal Large Language Models

Jian Li, Weiheng Lu

TL;DR本研究针对多模态大语言模型（MLLMs）在多个应用领域（如视觉问答和理解推理）的评价标准进行全面回顾，填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准，探讨了评价方法的局限性，并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。

Abstract

Multimodal Large Language Models (MLLMs) are gaining increasing popularity in both academia and industry due to their remarkable performance in various applications such as visual question answering, visual

发现论文，激发创造

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

多模式大型语言模型综述

本文旨在追踪和总结MLLM的最新进展，包括MLLM的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架MM-BigBench，本文综合评估了20个语言模型（包括14个多模态大型语言模型）在14个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

多模态大型语言模型中的顺序视觉输入推理和预测基准测试

多模式大型语言模型在感知和解释任务中显示出巨大潜力，但其在预测推理方面的能力尚未得到充分探索。为填补这一空白，我们引入了一个新颖的基准测试，评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域：抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法，以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性，并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后，我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架，并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。

Oct, 2023

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对23个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

多模态理解排行榜：文本与图像

Multi是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估MLLMs在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs在Multi上取得了显著的进展，与其他MLLMs相比，GPT-4V的准确率达到了63.7%，Multi不仅是一个强大的评估平台，也为专家级AI的发展铺平了道路。

Feb, 2024

NPHardEval4V: 多模态大型语言模型的动态推理基准

多模大型语言模型的推理能力研究及其在动态基准评估中的影响和不足。

Mar, 2024

高效多模态大型语言模型综述

在这份调研报告中，我们综述了当前高效多模态大语言模型（MLLMs）的研究状况，包括代表性的高效MLLM的时间线、高效结构和策略的研究现状以及应用领域。最后，我们讨论了目前高效MLLM研究的限制和有前途的未来方向。

May, 2024

多模态大语言模型的综合评估：不同任务的性能与挑战

本研究解决了多模态大语言模型（MLLMs）在实际应用中面临的挑战和不足。通过系统归纳MLLM在语言、视觉和音频等多模态任务中的应用，并分析不同模型的关注点，本文提出了未来研究的潜在方向。研究结果为MLLM的发展和应用提供了重要的见解。

Aug, 2024

多模态大型语言模型的评估综述

本研究针对多模态大型语言模型（MLLMs）评估方法的不足，进行了系统的综述。通过分析评估内容、基准和步骤，提供了研究人员在促进更强大和可靠的MLLMs发展中的重要见解，强调评估在这一领域的关键性。研究结果可能为实现人工通用智能铺平道路。

Aug, 2024