人类与多模态 LLMs 之间的视觉认知差距是什么？

Jun, 2024

人类与多模态 LLMs 之间的视觉认知差距是什么？

What is the Visual Cognition Gap between Humans and Multimodal LLMs?

Xu Cao, Bolin Lai, Wenqian Ye, Yunsheng Ma, Joerg Heintz...

TL;DR我们提出了一个新数据集 MaRs-VQA 和一个新的基准 VCog-Bench，以评估 Multimodal Large Language Models 的零射击 Abstract Visual Reasoning 能力，并将其与现有的人类智能研究进行比较。我们的实验结果揭示了当前 MLLMs 在视觉认知方面存在的局限性。

Abstract

Recently, multimodal large language models (MLLMs) have shown great promise in language-guided perceptual tasks such as recognition, segmentation, and object detection. However, their effectiveness in addressing visual

multimodal large language models abstract visual reasoning mars-vqa vcog-bench visual cognition

发现论文，激发创造

MARVEL: 多维度的可视化评估和学习中的抽象和推理

多模态大型语言模型在抽象视觉推理方面呈现出近乎随机的性能，无法理解视觉特征和难以进行抽象推理。

Apr, 2024

智能视觉演绎推理有多远？

近期，Vision-Language Models (VLMs) 取得了惊人的进展，但在基于视觉的演绎推理方面仍存在尚未发现的局限性。采用 Raven's Progressive Matrices (RPMs) 测试了几种热门的 VLMs 的能力，结果表明，虽然 VLMs 在文本推理方面表现出色，但在视觉演绎推理方面还有很大提升空间。详细分析揭示出 VLMs 在解决这些任务时主要困难在于无法感知和理解 RPM 示例中的多个、混淆的抽象模式。

Mar, 2024

非言语抽象推理的研究：多模态大型语言模型的好奇之境

通过 Raven's Progressive Matrices 的变种，评估开源和闭源的多模态大型语言模型（MLLMs）的非语言抽象推理能力，发现了解决这类问题的困难以及开源和闭源模型之间巨大的差距，并揭示了个别视觉模块和文本模块的关键缺陷，最后通过 Chain-of-Thought 提示等方法，以显著提升模型性能（最高达 100%）。

Jan, 2024

大型视觉语言模型的图像推理与描述的认知评估基准

通过使用具有丰富语义的图像，我们提出了一种新的评估基准，评估大规模视觉语言模型（LVLMs）的高级认知能力。该基准定义了八种推理能力，并包括图像描述任务和视觉问答任务。我们对知名的 LVLMs 进行评估发现，LVLMs 与人类之间的认知能力差距仍然很大。

Feb, 2024

多模态大型语言模型中的顺序视觉输入推理和预测基准测试

多模式大型语言模型在感知和解释任务中显示出巨大潜力，但其在预测推理方面的能力尚未得到充分探索。为填补这一空白，我们引入了一个新颖的基准测试，评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域：抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法，以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性，并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后，我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架，并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。

Oct, 2023

视觉与语言模型中的多图像理解基准测试：感知、知识、推理和多跳推理

通过引入多图像关系基准（MIRB），我们评估了视觉语言模型（VLMs）在比较、分析和推理多个图像时的能力，并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能，但在多图像推理任务中存在显著的性能差距。我们的发现表明，即使是最先进的 GPT-4V 模型在我们的基准测试中也存在困难，强调了该领域进一步研究和开发的必要性。我们相信我们的 MIRB 可以作为开发下一代多模态模型的测试平台。

Jun, 2024

大型语言模型能像人类一样解决 ARC 视觉类比问题吗？

通过比较人类和大型语言模型（LLM）在一组新的儿童友好的 Abstraction Reasoning Corpus（ARC）项目上的表现，发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略，并发现了两种其他错误类型，一种基于似乎掌握关键概念，另一种基于类比输入矩阵的简单组合。这项研究揭示了 LLM 的推理能力以及我们可以利用错误分析和与人类发展的比较来理解 LLMs 如何解决视觉类比问题。

Mar, 2024

多模态 LLM 的视觉缺陷探究

通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与 MLLMs 相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉 - 语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

MR-MLLM: 多模态理解和视觉感知的相互增强

一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架，通过共享查询融合机制和增强的跨模态集成方法，结合视觉感知和多模态理解，以及混合了感知信息的提示生成机制，提供更准确的多模态解释，在各种多模态理解和视觉感知任务中展现卓越性能。

Jun, 2024