MME-RealWorld：你的多模态大语言模型能在高分辨率的现实场景中挑战困难吗？

Aug, 2024

MME-RealWorld：你的多模态大语言模型能在高分辨率的现实场景中挑战困难吗？

MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?

Yi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang...

TL;DR本研究针对现有多模态大语言模型（MLLMs）评估面临的挑战，特别是数据规模小导致的性能差异、注释质量受限和任务难度不足等问题，提出了MME-RealWorld基准。通过筛选出13,366张高质量图像以及29,429对问答对，这一基准体现了现实应用中的复杂性，结果显示即便是最先进的模型在这一基准上也未能达到60%的准确率，凸显了改进高分辨率图像处理和复杂场景理解的迫切需求。

Abstract

Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that mode

发现论文，激发创造

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架MM-BigBench，本文综合评估了20个语言模型（包括14个多模态大型语言模型）在14个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对23个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

多模态大语言模型（MM-LLMs）的最新进展

综述了过去一年多模态大型语言模型（MM-LLMs）的进展，提供了对MM-LLMs的全面调查，包括模型架构和训练流程的设计概述，介绍了26种不同形式的MM-LLMs，并回顾了其在主流基准上的性能以及提升其效力的关键训练方法，同时探索了MM-LLMs领域的前景方向。

Jan, 2024

MM1: 多模态LLM预训练的方法、分析与洞察

讨论构建出色的多模态大型语言模型的重要组成部分和数据选择，通过仔细和全面的分析，证明了使用图像-标题、交错图像-文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型，构建了以稠密模型和专家混合模型为特征的MM1系列多模态模型，这些模型在预训练指标上取得最新成果，并在一系列已建立的多模态基准测试中实现了有竞争力的性能。

Mar, 2024

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于LLM中的世界知识。2）在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题，我们提出了MMStar，这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM，以评估它们的多模态能力，并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入MileBench基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源MLLMs在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

Video-MME: 多模式语言模型在视频分析中的首个综合评估基准

在这篇论文中，我们介绍了Video-MME，这是第一个全方位的、多模式评估基准测试，用于评估MLLMs在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种MLLMs，并发现商业模型Gemini 1.5 Pro的性能最佳，明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。

May, 2024

多模态大语言模型的综合评估：不同任务的性能与挑战

本研究解决了多模态大语言模型（MLLMs）在实际应用中面临的挑战和不足。通过系统归纳MLLM在语言、视觉和音频等多模态任务中的应用，并分析不同模型的关注点，本文提出了未来研究的潜在方向。研究结果为MLLM的发展和应用提供了重要的见解。

Aug, 2024

多模态大型语言模型的评估综述

本研究针对多模态大型语言模型（MLLMs）评估方法的不足，进行了系统的综述。通过分析评估内容、基准和步骤，提供了研究人员在促进更强大和可靠的MLLMs发展中的重要见解，强调评估在这一领域的关键性。研究结果可能为实现人工通用智能铺平道路。

Aug, 2024