Oct, 2024

ING-VP:多模态大语言模型尚无法玩简单的基于视觉的游戏

TL;DR本研究解决了现有多模态基准在评估图像中基于空间关系的多步骤规划能力方面的不足。提出的ING-VP基准专门设计来评估多模态大语言模型的空间想象力和多步骤推理能力,包含6种游戏和300个关卡。评估结果显示,表现最好的模型Claude-3.5 Sonnet的平均准确率仅为3.37%,揭示了当前模型在复杂空间推理和规划中的局限性。