GridMM：视觉语言导航的网格存储映射

Jul, 2023

GridMM：视觉语言导航的网格存储映射

GridMM: Grid Memory Map for Vision-and-Language Navigation

Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi Liu, Shuqiang Jiang

TL;DR通过构建自上而下的自我中心网格记忆地图 (GridMM) 来结构化所访问的环境，并提出了一种指令关联聚合方法来捕捉每个网格区域的细粒度视觉线索，实验证明该方法的优越性。

Abstract

vision-and-language navigation (VLN) enables the agent to navigate to a remote location following the natural language instruction in 3D environments. To represent the previously visited environment, most approaches for VLN implement →

vision-and-language navigation memory top-down egocentric grid memory map instruction relevance aggregation method environment representation

发现论文，激发创造

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

结构化场景记忆用于视觉语言导航

提出一种名为结构化场景记忆（SSM）的模型架构，通过具有采集 - 读取控制器的全面行动空间和以前视经验的编码来辅助导航决策，并实现长程推理和全局规划，证明在 R2R 和 R4R 度量标准上实现了最先进的表现。

Mar, 2021

双语义感知循环全局自适应网络：用于视觉和语言导航

该论文提出了一种双语义感知递归全局自适应网络（DSRG），包括指导语言模块和外貌 - 语义视觉模块，用于视觉和语言语义学习，以及全球自适应聚合模块和递归记忆融合模块，用于对全景观测进行显式内存融合。虽然在 R2R 和 REVERIE 数据集上进行了广泛的实验，并证明该方法的实际性和有效性高于现有方法。

May, 2023

通过跨模态记忆进行视觉 - 对话导航

本文提出了一种跨模态记忆网络（CMN），通过两个记忆模块（L-mem 和 V-mem）协同学习，实现了历史导航决策的探索，有效地解决了视觉对话导航中的语言意图处理问题，并在 CVDN 数据集上取得了显著的性能提升。

Mar, 2020

BEVBert: 基于拓扑度量图的语言引导导航预训练

本研究提出采用混合拓扑度量图来实现视觉和语言导航，其中拓扑地图用于长期规划，度量地图用于短期推理，通过深度特征和预训练框架学习语言信息地图表示，增强了跨模态接地和促进最终的语言引导导航目标，实验证明了地图路线在 VLN 中的有效性，该方法在三个 VLN 基准测试中取得了最新的最佳效果。

Dec, 2022

视觉语言导航的体积环境表示

基于视觉观察和自然语言指令，本论文提出了一种基于体素化环境表示的视觉语言导航模型，在多任务学习的影响下，预测 3D 占用、3D 房间布局和 3D 边界框，并通过在线采集的环境表示进行体积状态估计和建立序列记忆，取得了在 VLN 基准测试（R2R，REVERIE 和 R4R）上最先进的性能。

Mar, 2024

多模态变长记忆转换器用于视觉语言导航

此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器（MTVM）方法，用于模拟时间上下文，通过在存储器库中直接存储先前激活来跟踪导航轨迹，并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估，该模型在验证集和测试集的成功率分别提高了 2％且将 CVDN 测试集的目标处理减少了 1.6m。

Nov, 2021

迭代式视觉语言导航

本研究提出了一种名为 IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

加强型结构化状态演进的视觉语言导航

本文提出了一种新的结构化状态演化（SEvol）模型，采用基于图的特征来表示导航状态，利用增强学习策略通过 Reinforced Layout clues Miner（RLM）挖掘和检测关键的布局图，并通过结构演化模块（SEM）来维护结构化基于图的状态，从而提高了 Vision-and-language Navigation 任务的性能。

Apr, 2022

机器人导航的视觉语言地图

本研究提出了 VLMaps，一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示，其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建，并且可以与多种类型的机器人共享，能够进行导航的同时生成新的障碍物地图。实验表明，VLMaps 可以支持人类语言含义更丰富的导航指令。

Oct, 2022