Jul, 2024

移动 VLA:多模式指引导航与长上下文 VLMs 以及拓扑图

TL;DR在导航研究中,一个难以达成的目标是建立一个智能代理,能够理解包括自然语言和图像的多模式指令,并进行有用的导航。为了实现这一目标,我们研究了一类被称为多模式指令导航(MINT)的广泛应用导航任务,其中环境先验通过以前记录的演示视频提供。最近视觉语言模型(VLMs)的进展显示了实现这一目标的有希望的途径,因为它表现出对多模式输入的感知和推理能力。然而,VLMs 通常是训练来预测文本输出的,关于如何最好地利用它们进行导航是一个需要研究的问题。为了解决 MINT,我们提出了一个名为移动 VLA 的分层视觉语言行动(VLA)导航策略,它结合了长上下文 VLMs 的环境理解和常识推理能力以及基于拓扑图的稳健低层导航策略。该高层策略由一个长上下文 VLM 组成,它以演示导航视频和多模式用户指令作为输入,在导航视频中找到目标帧。接下来,一个低层策略使用目标帧和离线构建的拓扑图在每个时间步生成机器人动作。我们在一个 836 平方米的真实世界环境中评估了移动 VLA,并展示了在以前无法解决的多模式指令如 “我应该把这个放在哪里?” 的情况下,移动 VLA 具有高的端到端成功率,同时拿着一个塑料箱。