MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

May, 2024

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains

Zhaohuan Zhan, Lisha Yu, Sijie Yu, Guang Tan

TL;DR在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

Abstract

In the vision-and-language navigation (VLN) task, the agent is required to navigate to a destination following a natural language instruction. While learning-based approaches have been a major solution to the tas

vision-and-language navigation agent large language models navigation strategies interpretability

发现论文，激发创造

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

GridMM：视觉语言导航的网格存储映射

通过构建自上而下的自我中心网格记忆地图 (GridMM) 来结构化所访问的环境，并提出了一种指令关联聚合方法来捕捉每个网格区域的细粒度视觉线索，实验证明该方法的优越性。

Jul, 2023

视觉 - 语言导航生成预训练 Transformer

在 Vision-and-Language Navigation (VLN) 领域中，我们提出了一种基于 Transformer 的生成预训练模型（VLN-GPT），通过建模轨迹序列依赖关系来增强效率，并在训练过程中采用离线预训练和在线优化的方法，性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。

May, 2024

NavCoT: 基于学习的解耦推理，提升基于 LLM 的视觉与语言导航

通过构建导航思维链（NavCoT）进行领域内训练的新策略，提高了基于大型语言模型（LLM）的自主导航决策性能以减少领域差距。NavCoT 相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越，并通过简单的参数微调在 R2R 数据集上实现了约 7％的相对改进。该方法将帮助开发更适应任务且可扩展的基于 LLM 的真实世界机器人应用。

Mar, 2024

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

迭代式视觉语言导航

本研究提出了一种名为 IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024

使用 Transformer 的拓扑规划实现视觉语言导航

本文介绍了一种基于模块化方法的视觉和语言导航技术，使用拓扑地图和注意机制来生成导航计划，并通过低级动作执行控制器实现。实验证明，该方法在自由遍历环境下优于以往的端到端方法。

Dec, 2020

多模态变长记忆转换器用于视觉语言导航

此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器（MTVM）方法，用于模拟时间上下文，通过在存储器库中直接存储先前激活来跟踪导航轨迹，并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估，该模型在验证集和测试集的成功率分别提高了 2％且将 CVDN 测试集的目标处理减少了 1.6m。

Nov, 2021

双语义感知循环全局自适应网络：用于视觉和语言导航

该论文提出了一种双语义感知递归全局自适应网络（DSRG），包括指导语言模块和外貌 - 语义视觉模块，用于视觉和语言语义学习，以及全球自适应聚合模块和递归记忆融合模块，用于对全景观测进行显式内存融合。虽然在 R2R 和 REVERIE 数据集上进行了广泛的实验，并证明该方法的实际性和有效性高于现有方法。

May, 2023