AAAIFeb, 2024

探索基于多模态推理的物理动力学失败案例

TL;DR本文探讨了 LLMs 在情境环境中通过物理推理解决问题的能力。我们构建了一个简单的模拟环境,并展示了 LLMs 在无先验条件下对各种物体的原子世界知识的示例,但在对象操作和放置任务中未能将这些知识组合成正确的解决方案。我们还使用了 BLIP,一个经过更复杂的跨模态注意力训练的视觉语言模型,来识别该模型未能基于对象物理属性进行建模的案例。最后,我们提出了一种发现环境中相关性质的对象的方法,并提出了一种将这些知识转化回 LLM 的方法。