Jul, 2024

以基础模型为基础的面向便利性的连续视觉语言导航规划

TL;DRLLM基础代理在视觉语言导航(VLN)任务中展示了令人印象深刻的零射击性能。为解决实际导航场景中的低级控制问题,我们提出了AO-Planner,一种新颖的面向预设语境的连续VLN任务规划框架。通过集成各种基础模型,我们的AO-Planner能够以零射击方式进行适应性导航的运动规划和动作决策制定。实验证明AO-Planner在具有挑战性的R2R-CE基准测试中取得了最先进的零射击性能(SPL提高了5.5%),为LLM和三维世界之间的快速有效连接提供了新的前景。