Nov, 2023

GRASP: 用于评估多模态语言模型中语言引用与情境物理理解的新型基准测试

TL;DR该研究提出 GRASP,这是一个用于评估基于视频多模式大型语言模型(LLMs)的语言理解和物理理解能力的新的基准。通过利用 Unity 模拟技术,这一评估通过两级方法完成。初始级别测试语言理解能力,通过评估模型将简单文本描述与视觉信息联系起来的能力。第二级别评估模型对直观物理原理(如物体的永恒性和连续性)的理解能力。除了发布基准系统,研究还使用它来评估几种最新的多模式 LLMs。我们的评估揭示了当前模型在语言理解和直观物理方面的重大缺陷。这些发现的限制凸显了像 GRASP 这样的基准对于监测未来模型在这些能力上的进展的重要性。