NPHardEval4V: 多模态大型语言模型的动态推理基准

Mar, 2024

NPHardEval4V: 多模态大型语言模型的动态推理基准

NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models

Lizhou Fan, Wenyue Hua, Xiang Li, Kaijie Zhu, Mingyu Jin...

TL;DR多模大型语言模型的推理能力研究及其在动态基准评估中的影响和不足。

Abstract

Understanding the reasoning capabilities of multimodal large language models (MLLMs) is an important area of research. In this study, we introduce a dynamic benchmark, NPHardEval4V, aimed at addressing the existi

multimodal large language models reasoning abilities benchmark instruction following prompting styles

发现论文，激发创造

NPHardEval: 复杂类别下大型语言模型推理能力的动态评估基准

本研究引入了一个名为 NPHardEval 的新基准，旨在评估大型语言模型（LLMs）的推理能力。通过比较 LLMs 在复杂类别上的表现，提供了对 LLMs 推理能力的客观且严格的观点。此基准通过 900 个算法问题的广泛谱系评估 LLMs 的推理能力，从 NP-Hard 复杂类别扩展到以下较低的复杂类别，并通过每月更新数据点来减轻 LLMs 过拟合的风险，促进更准确可靠的能力评估。

Dec, 2023

多模态大型语言模型中的顺序视觉输入推理和预测基准测试

多模式大型语言模型在感知和解释任务中显示出巨大潜力，但其在预测推理方面的能力尚未得到充分探索。为填补这一空白，我们引入了一个新颖的基准测试，评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域：抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法，以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性，并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后，我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架，并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。

Oct, 2023

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

我们手动策划了一个专为多模态大型语言模型（MLLMs）设计的基准数据集，重点关注复杂推理任务，通过评估中间推理步骤来准确测量其推理能力。

Nov, 2023

视觉与语言模型中的多图像理解基准测试：感知、知识、推理和多跳推理

通过引入多图像关系基准（MIRB），我们评估了视觉语言模型（VLMs）在比较、分析和推理多个图像时的能力，并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能，但在多图像推理任务中存在显著的性能差距。我们的发现表明，即使是最先进的 GPT-4V 模型在我们的基准测试中也存在困难，强调了该领域进一步研究和开发的必要性。我们相信我们的 MIRB 可以作为开发下一代多模态模型的测试平台。

Jun, 2024

M4U：评估大型多模态模型的多语言理解与推理能力

M4U 是一个用于评估多学科、多语种、多模态理解和推理能力的新型基准测试数据集，通过 extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs)，发现 GPT-4o 等领先的模型在 M4U 上的平均准确率仅为 47.6%，而且这些模型在跨语言多模态问题上表现出显著的性能降低。

May, 2024

挑战 LLMs 的推理能力：揭示 LLMs 中的认知深度的基准测试

我们引入了一种新颖的评估范式来评估大型语言模型，这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷，传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估，能够有效区分模型之间的认知能力。例如，在我们的基准测试中，GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试（如 GSM8K）未能发现的语言模型的潜在认知缺陷，这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型，揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变，而且对于关于人工通用智能（AGI）的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用，我们旨在促进对 LLM 真正认知能力的更准确评估。

Dec, 2023

记念品：一种用于模态多模式大型语言模型推理图像序列的综合基准

这篇论文介绍了 Mementos，这是一个旨在评估多模态大型语言模型（MLLMs）的顺序图像推理能力的新基准，通过评估九种最新的 MLMMs 对 Mementos 的表现，发现它们在准确描述给定图像序列的动态信息方面存在困难，经常导致物体及其相关行为的幻觉 / 误代，研究确定了影响 MLLMs 顺序图像推理的三个关键因素：物体和行为幻觉之间的相关性，共发生行为的影响以及行为幻觉的复合影响。

Jan, 2024

视频 - LMMs 的复杂推理与鲁棒性评估套件

通过开发一种复杂视频推理和鲁棒性评估套件（CVRR-ES），该研究综合评估了多种最新 Video-LMMs 模型在 11 个不同的现实世界视频维度上的性能，发现大多数 Video-LMMs 模型在处理复杂视频时，特别是开源模型，在鲁棒性和推理能力方面存在困难。此外，作者还提出了一个训练免费的双步骤上下文提示（DSCP）技术以提升现有 Video-LMMs 模型的性能，并为构建具有先进鲁棒性和推理能力的下一代以人为中心的人工智能系统提供了有价值的见解。

May, 2024

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如 GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估 MLLMs 的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了 MLLM-Bench，这是一个受 Vicuna 启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为，MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。

Nov, 2023

使用 MATH-Vision 数据库测量多模态数学推理

我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力，并发现目前的模型在 MATH-V 数据集上与人类表现存在明显差距，强调了对大规模多模态模型的进一步发展的必要性，此外，我们的详细分类还允许对其错误进行全面分析，为未来的研究和开发提供有价值的见解。

Feb, 2024