Apr, 2023

基于能量的模型作为零样本规划器用于组合式场景重排

TL;DR通过使用语言解析器将语言指示映射到相应的能量函数,并且使用开放式词汇的视觉语言模型将它们的参数接地到场景中的相关对象,我们提出了一种表示语言指导的空间概念的方法,可以通用于更长的指令和在训练时从未见过的空间概念构成。我们在已建立的指令引导操作基准测试以及我们引介的构成指令基准测试上测试我们的模型,并展示了它在模拟和现实世界中都能够执行高度构成的指令,而且其性能明显优于语言到动作反应策略和大型语言模型计划者,特别是针对涉及多个空间概念构成的长指令。