智能视觉演绎推理有多远？

ICLRMar, 2024

How Far Are We from Intelligent Visual Deductive Reasoning?

Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai...

TL;DR近期，Vision-Language Models (VLMs) 取得了惊人的进展，但在基于视觉的演绎推理方面仍存在尚未发现的局限性。采用 Raven's Progressive Matrices (RPMs) 测试了几种热门的 VLMs 的能力，结果表明，虽然 VLMs 在文本推理方面表现出色，但在视觉演绎推理方面还有很大提升空间。详细分析揭示出 VLMs 在解决这些任务时主要困难在于无法感知和理解 RPM 示例中的多个、混淆的抽象模式。

Abstract

vision-language models (vlms) such as GPT-4V have recently demonstrated incredible strides on diverse vision language tasks. We dig into vision-based deductive reasoning, a more sophisticated but less explored re

vision-language models vlms vision-based deductive reasoning raven's progressive matrices visual deductive reasoning

发现论文，激发创造

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉 - 语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

人类与多模态 LLMs 之间的视觉认知差距是什么？

我们提出了一个新数据集 MaRs-VQA 和一个新的基准 VCog-Bench，以评估 Multimodal Large Language Models 的零射击 Abstract Visual Reasoning 能力，并将其与现有的人类智能研究进行比较。我们的实验结果揭示了当前 MLLMs 在视觉认知方面存在的局限性。

Jun, 2024

视觉语言模型是否能够成为良好猜测器？探索 VLM 的时间和位置推理能力

本文通过引入 WikiTiLo 数据集，并实施两阶段的识别和推理探测任务，研究基于大规模图像 - 文本资源预训练的视觉语言模型是否能够像人类一样通过视觉线索推断图像的时间和地点，并发现 VLMs 虽然能够有效地保留视觉编码器中的相关特征，但仍然无法进行完美的推理。

Jul, 2023

测量和改进视觉 - 语言模型的思维链推理

通过 LLM-Human-in-the-Loop 流程和 CURE 基准，我们评估了现有的 VLMs，并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性，表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤，我们提出了一个两阶段训练框架，旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段，我们进一步通过结合 LLMs 提供的反馈来增强训练过程，以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。

Sep, 2023

评估大型视觉语言模型在儿童数学奥林匹克竞赛上的表现

通过评估最先进的大型视觉和语言模型在儿童奥林匹克数学竞赛中的数学推理能力，我们填补了当前科学文献中缺少的有关联合视觉和文本推理的系统分析，结果显示现代大型视觉和语言模型在高年级的问题解决能力越来越强，但缺乏解答针对年幼儿童设计的问题的基础知识，而且它们的能力似乎基于与儿童的数学和逻辑技能不同的推理类型。

Jun, 2024

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023

基于图表的推理：从 LLMs 向 VLMs 的能力转移

在 VLMs 中，我们提出了一种从 LLMs 转移能力的技术，通过改善图表表示和构建比原始训练集大 20 倍的数据集，合成图表的推理痕迹，最后使用多任务损失对模型进行微调，取得了令人满意的性能。

Mar, 2024

SpatialVLM：赋予视觉语言模型空间推理能力

通过在互联网规模的空间推理数据上训练 Visual Language Model（VLM），我们显著增强了其在定量和定性空间 VQA 方面的能力，并实现了链式思维空间推理和机器人学等新颖应用。

Jan, 2024

ViTCN：用于推理的视觉转换器对比网络

提出了基于 Contrastive Perceptual Inference network (CoPiNet) 的 Vision Transformer Contrastive Network，结合心理学、认知学和教育学，采用先进的 Vision Transformer 架构，从像素级输入和全局特征上进一步改进了机器处理和推理空间 - 时间信息在 RAVEN 数据集上的能力。

Mar, 2024

通过大型语言模型增强视觉语言模型的推理能力

本文提出了一种名为 TReE 的方法，用于在零样本场景中将大型语言模型（LLMs）的推理能力转移给视觉语言模型（VLM），包含观察、思考和重新思考三个阶段。

May, 2023