结构化场景记忆用于视觉语言导航

CVPRMar, 2021

结构化场景记忆用于视觉语言导航

Structured Scene Memory for Vision-Language Navigation

Hanqing Wang, Wenguan Wang, Wei Liang, Caiming Xiong, Jianbing Shen

TL;DR提出一种名为结构化场景记忆（SSM）的模型架构，通过具有采集 - 读取控制器的全面行动空间和以前视经验的编码来辅助导航决策，并实现长程推理和全局规划，证明在 R2R 和 R4R 度量标准上实现了最先进的表现。

Abstract

Recently, numerous algorithms have been developed to tackle the problem of vision-language navigation (VLN), i.e., entailing an agent to navigate 3D environments through following linguistic instructions. However, current VLN agents simply store their past experiences/observations as l

vision-language navigation structured scene memory long-range reasoning global planning state-of-the-art performance

发现论文，激发创造

加强型结构化状态演进的视觉语言导航

本文提出了一种新的结构化状态演化（SEvol）模型，采用基于图的特征来表示导航状态，利用增强学习策略通过 Reinforced Layout clues Miner（RLM）挖掘和检测关键的布局图，并通过结构演化模块（SEM）来维护结构化基于图的状态，从而提高了 Vision-and-language Navigation 任务的性能。

Apr, 2022

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

GridMM：视觉语言导航的网格存储映射

通过构建自上而下的自我中心网格记忆地图 (GridMM) 来结构化所访问的环境，并提出了一种指令关联聚合方法来捕捉每个网格区域的细粒度视觉线索，实验证明该方法的优越性。

Jul, 2023

视觉语言导航的体积环境表示

基于视觉观察和自然语言指令，本论文提出了一种基于体素化环境表示的视觉语言导航模型，在多任务学习的影响下，预测 3D 占用、3D 房间布局和 3D 边界框，并通过在线采集的环境表示进行体积状态估计和建立序列记忆，取得了在 VLN 基准测试（R2R，REVERIE 和 R4R）上最先进的性能。

Mar, 2024

MemoNav: 视觉导航的工作记忆模型

MemoNav 是一种新型的内存模型，利用工作内存类似的流水线来提高图像目标导航的性能，通过三种类型的导航内存以及场景特征的学习和利用，使得代理能够学习并利用与目标相关的场景特征在拓扑图中进行高效导航，实验证明 MemoNav 在吉布森和 Matterport3D 场景的多目标任务中显著优于先前的方法，定性结果进一步说明 MemoNav 规划更高效的路径。

Feb, 2024

Meta-Explore：使用场景对象频谱基础的探索性分层视觉语言导航

提出了 Meta-Explore 方法，该方法使用一种基于 2D 傅立叶变换的新型视觉表示方法 - 场景对象谱，结合了一种利用未探索状态的利用策略，以及带有语义信息的后悔探索方法，从而可以更好地解决 VLN 中跟随自然语言指令进行导航的问题，并在三个 VLN 基准测试中，Meta-Explore 相对于其他基线模型表现出更好的性能。

Mar, 2023

鸟瞰视角下的视觉语言导航场景图

利用 BEV 场景图编码室内环境的场景布局和几何线索以解决视觉语言导航中对于三维场景几何和全景观察选择的限制，该方法在 REVERIE、R2R 和 R4R 数据集上显著优于现有方法，展示了 BEV 感知在视觉语言导航中的潜力。

Aug, 2023

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

基于在线视觉语言映射的真实世界视觉语言导航

在本文中，我们提出了一个在真实世界中解决 VLN 任务的新型导航框架，该框架利用强大的基础模型，并包括四个关键组成部分：(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器，(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器，(3) 基于语言索引的定位器，将每个宏操作描述重新映射到地图上的路径点位置，以及 (4) 基于 DD-PPO 的本地控制器，用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估，而无需进行任何细微调整，在真实世界中，我们的流程明显优于 SOTA VLN 基线。

Oct, 2023

双语义感知循环全局自适应网络：用于视觉和语言导航

该论文提出了一种双语义感知递归全局自适应网络（DSRG），包括指导语言模块和外貌 - 语义视觉模块，用于视觉和语言语义学习，以及全球自适应聚合模块和递归记忆融合模块，用于对全景观测进行显式内存融合。虽然在 R2R 和 REVERIE 数据集上进行了广泛的实验，并证明该方法的实际性和有效性高于现有方法。

May, 2023