评估与推进多模态大语言模型的能力透镜

Nov, 2024

评估与推进多模态大语言模型的能力透镜

Evaluating and Advancing Multimodal Large Language Models in Ability Lens

Feng Chen, Chenhui Gou, Jing Liu, Yang Yang, Zhaoyang Li...

TL;DR本研究针对多模态大语言模型（MLLMs）在视觉感知能力评估中存在的问题，提出了一种统一且稳健的评估基准“AbilityLens”。这一新方法能够综合多种问题类型、领域和评估指标，显著减少评估变异，并揭示开放源代码与闭源模型之间的性能差距。研究结果显示，通过AbilityLens的使用，能够识别当前模型的优缺点，并有效缓解由于能力冲突导致的性能下降。

Abstract

As Multimodal large Language Models (MLLMs) advance rapidly, rigorous Evaluation has become essential, providing further guidance for thei

发现论文，激发创造

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架MM-BigBench，本文综合评估了20个语言模型（包括14个多模态大型语言模型）在14个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

多模态大型语言模型中的顺序视觉输入推理和预测基准测试

多模式大型语言模型在感知和解释任务中显示出巨大潜力，但其在预测推理方面的能力尚未得到充分探索。为填补这一空白，我们引入了一个新颖的基准测试，评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域：抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法，以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性，并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后，我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架，并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。

Oct, 2023

ChEF: 一个综合评估框架用于对多模态大型语言模型进行标准化评估

通过构建全面的评估框架（ChEF），对多模态大语言模型（MLLMs）的能力和限制进行标准化和全面的评估，以及提出新的评估方法和模型集成工具包，以促进MLLM社区的进一步分析和发展。

Nov, 2023

MLLM作为评判者：以视觉-语言基准评估多模态MLLM

通过引入一种新的基准测试，MLLMs作为评判者，本研究揭示了MLLMs在评估任务中的能力，并发现MLLMs在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对MLLMs进一步改进和研究的迫切需求。

Feb, 2024

NPHardEval4V: 多模态大型语言模型的动态推理基准

多模大型语言模型的推理能力研究及其在动态基准评估中的影响和不足。

Mar, 2024

MMEvalPro：多模态基准测试的可靠和高效评估

通过提出MMEvalPro基准测试，我们针对多模态模型在视觉问题中的性能进行了评估的可靠性进行了改进，其结果表明该基准测试更具挑战性且更可信，为进一步推动未来研究提供了重要潜力。

Jun, 2024

多模态大语言模型基准调查

本研究针对多模态大语言模型（MLLMs）在多个应用领域（如视觉问答和理解推理）的评价标准进行全面回顾，填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准，探讨了评价方法的局限性，并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。

Aug, 2024

多模态大型语言模型的评估综述

本研究针对多模态大型语言模型（MLLMs）评估方法的不足，进行了系统的综述。通过分析评估内容、基准和步骤，提供了研究人员在促进更强大和可靠的MLLMs发展中的重要见解，强调评估在这一领域的关键性。研究结果可能为实现人工通用智能铺平道路。

Aug, 2024

ActiView：评估多模态大型语言模型的主动感知能力

本研究针对多模态大型语言模型（MLLMs）在主动感知能力评估中的不足，提出了一种新的基准测试工具ActiView。该工具专注于通过一种特殊的视觉问答形式评估主动感知，发现MLLMs在同时读取和理解多张图像方面存在显著差距，强调需要对此领域给予更多关注。

Oct, 2024