May, 2023

NavGPT: 基于大语言模型的视觉语言导航的明确推理

TL;DR本篇论文中,我们使用大语言模型(LLMs)为基础,介绍了一款纯 LLMs 导航代理 NavGPT,通过对视觉和语言导航(VLN)进行零样本顺序动作预测,揭示了 GPT 模型在复杂体验场景中的推理能力,以及它在导航中的应用,通过全面的实验,展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。