ICLRMar, 2024

智能视觉演绎推理有多远?

TL;DR近期,Vision-Language Models (VLMs) 取得了惊人的进展,但在基于视觉的演绎推理方面仍存在尚未发现的局限性。采用 Raven's Progressive Matrices (RPMs) 测试了几种热门的 VLMs 的能力,结果表明,虽然 VLMs 在文本推理方面表现出色,但在视觉演绎推理方面还有很大提升空间。详细分析揭示出 VLMs 在解决这些任务时主要困难在于无法感知和理解 RPM 示例中的多个、混淆的抽象模式。