Oct, 2023

利用大型语言和视觉 - 语言模型在具有可穿越障碍物的环境中进行互动导航

TL;DR提出一个互动导航框架,使用大型语言和视觉语言模型,使机器人能在存在可通过的障碍物的环境中导航。利用大型语言模型(GPT-3.5)和开放域视觉语言模型(Grounding DINO),创建一个动作感知的成本图,可以实现有效的路径规划而无需微调。实验结果证明了该框架在不同环境中的有效性和适应性。