多模态大型语言模型的评估综述

Aug, 2024

A Survey on Evaluation of Multimodal Large Language Models

Jiaxing Huang, Jingyi Zhang

TL;DR本研究针对多模态大型语言模型（MLLMs）评估方法的不足，进行了系统的综述。通过分析评估内容、基准和步骤，提供了研究人员在促进更强大和可靠的MLLMs发展中的重要见解，强调评估在这一领域的关键性。研究结果可能为实现人工通用智能铺平道路。

Abstract

Multimodal Large Language Models (MLLMs) mimic human perception and reasoning system by integrating powerful Large Language Models (LLMs)

发现论文，激发创造

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

多模式大型语言模型综述

本文旨在追踪和总结MLLM的最新进展，包括MLLM的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架MM-BigBench，本文综合评估了20个语言模型（包括14个多模态大型语言模型）在14个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估MLLMs的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了MLLM-Bench，这是一个受Vicuna启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和GPT-4V之间存在显著的性能差距。我们认为，MLLM-Bench将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问https://mllm-bench.llmzoo.com查看在线排行榜。

Nov, 2023

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对23个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

多模态大型语言模型（MLLMs）的推理能力探索：多模态推理中新兴趋势的综述

综合评估了多模态大语言模型的现有评估协议，分类和说明了多模态大语言模型的前沿，介绍了多模态大语言模型在推理密集型任务上的最新趋势，并讨论了当前的实践和未来的发展方向。

Jan, 2024

MLLM作为评判者：以视觉-语言基准评估多模态MLLM

通过引入一种新的基准测试，MLLMs作为评判者，本研究揭示了MLLMs在评估任务中的能力，并发现MLLMs在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对MLLMs进一步改进和研究的迫切需求。

Feb, 2024

多模态大型语言模型的数据中心视角调查

本综述以数据为中心的视角全面回顾多模态大型语言模型的文献，探索了在多模态数据准备、预训练和适应阶段的方法，分析了数据集的评估方法和评估多模态大型语言模型的基准。此外，本综述还概述了未来的研究方向，以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解，推动该领域的进一步探索和创新。

May, 2024

多模态大语言模型的综合评估：不同任务的性能与挑战

本研究解决了多模态大语言模型（MLLMs）在实际应用中面临的挑战和不足。通过系统归纳MLLM在语言、视觉和音频等多模态任务中的应用，并分析不同模型的关注点，本文提出了未来研究的潜在方向。研究结果为MLLM的发展和应用提供了重要的见解。

Aug, 2024

多模态大语言模型基准调查

本研究针对多模态大语言模型（MLLMs）在多个应用领域（如视觉问答和理解推理）的评价标准进行全面回顾，填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准，探讨了评价方法的局限性，并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。

Aug, 2024