LogicVista: 视觉语境下的多模式LLM逻辑推理基准

Jul, 2024

LogicVista: 视觉语境下的多模式LLM逻辑推理基准

LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts

Yijia Xiao, Edward Sun, Tianyu Liu, Wei Wang

TL;DR我们提出了LogicVista，这是一个评估多模态大型语言模型在视觉环境中综合逻辑推理能力的评估基准。我们通过448个多项选择题综合评估了8个多模态大型语言模型在LogicVista上的逻辑认知能力，包括5个逻辑推理任务和9种不同的能力。

Abstract

We propose logicvista, an evaluation benchmark that assesses the integrated logical reasoning capabilities of multimodal large language models

发现论文，激发创造

MathVista: 在视觉背景中评估基础模型的数学推理

通过创建MathVista基准测试，研究提出了对于大型语言模型和大型多模态模型在数学推理和视觉背景下的能力的正式研究，并详细评估了11种不同模型的性能，为未来的通用AI代理的发展提出了挑战。

Oct, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架MM-BigBench，本文综合评估了20个语言模型（包括14个多模态大型语言模型）在14个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

多模态大型语言模型中的顺序视觉输入推理和预测基准测试

多模式大型语言模型在感知和解释任务中显示出巨大潜力，但其在预测推理方面的能力尚未得到充分探索。为填补这一空白，我们引入了一个新颖的基准测试，评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域：抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法，以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性，并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后，我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架，并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。

Oct, 2023

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

我们手动策划了一个专为多模态大型语言模型（MLLMs）设计的基准数据集，重点关注复杂推理任务，通过评估中间推理步骤来准确测量其推理能力。

Nov, 2023

多模态大型语言模型（MLLMs）的推理能力探索：多模态推理中新兴趋势的综述

综合评估了多模态大语言模型的现有评估协议，分类和说明了多模态大语言模型的前沿，介绍了多模态大语言模型在推理密集型任务上的最新趋势，并讨论了当前的实践和未来的发展方向。

Jan, 2024

NPHardEval4V: 多模态大型语言模型的动态推理基准

多模大型语言模型的推理能力研究及其在动态基准评估中的影响和不足。

Mar, 2024

眼见不一定全是实情：多模态大语言模型因果推理能力的基准测试

基于现有多模态大型语言模型 (MLLMs) 在视觉问答评测方面的认知和推理能力，我们提出了一个新的 CFMM（Counterfactual MultiModal）基准测试，以系统评估 MLLMs 的反事实推理能力，发现现有 MLLMs 往往更加倾向于相信所见而忽视问题中提到的反事实前提，因此导致了不准确的回答，同时也表明现有 MLLMs 在逼近人类智能方面仍有较大提升空间，我们还探索了通过在未来提升 MLLMs 在 CFMM 上的表现来发展具备先进智能的 MLLMs 的潜在途径。

Apr, 2024

MARVEL: 多维度的可视化评估和学习中的抽象和推理

多模态大型语言模型在抽象视觉推理方面呈现出近乎随机的性能，无法理解视觉特征和难以进行抽象推理。

Apr, 2024

Cantor: MLLM的多模态思维链激发

通过结合视觉环境获取和逻辑推理，本论文提出了一种名为Cantor的创新的多模态CoT框架，利用多模态大语言模型的认知能力解决复杂的视觉推理任务，该框架通过分析图像和问题实现对视觉输入的整合，利用大语言模型的高级认知功能生成更高级别的信息，提高了多模态CoT性能。

Apr, 2024

多模态大语言模型基准调查

本研究针对多模态大语言模型（MLLMs）在多个应用领域（如视觉问答和理解推理）的评价标准进行全面回顾，填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准，探讨了评价方法的局限性，并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。

Aug, 2024