Mar, 2024

NavCoT: 基于学习的解耦推理,提升基于 LLM 的视觉与语言导航

TL;DR通过构建导航思维链(NavCoT)进行领域内训练的新策略,提高了基于大型语言模型(LLM)的自主导航决策性能以减少领域差距。NavCoT 相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越,并通过简单的参数微调在 R2R 数据集上实现了约 7%的相对改进。该方法将帮助开发更适应任务且可扩展的基于 LLM 的真实世界机器人应用。