Jan, 2024

MapGPT: 地图引导的视觉与语言导航

TL;DR本文提出了一种新型的地图引导 GPT-based 路径规划代理模型 (MapGPT),用于零 - shot 视觉语言导航任务,通过在线构建拓扑地图转换为提示来引导全局探索,要求代理模型明确输出和更新多步路径规划以避免陷入局部探索,并在 R2R 和 REVERIE 数据集上取得了令人印象深刻的性能 (分别为 38.8% 和 28.4% 的成功率),展示了 GPT 模型在全局思考和路径规划能力方面的新兴能力,与以往需要微调独立参数或特定提示设计来满足不同数据集中不同指令风格的 VLN 代理相比,我们的 MapGPT 更统一,能够在不同指令风格之间无缝适应,这在该领域是首次。