知识增强的视觉语言导航推理

CVPRMar, 2023

KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation

Xiangyang Li, Zihan Wang, Jiahao Yang, Yaowei Wang, Shuqiang Jiang

TL;DR本文提出了一种基于 Knowledge Enhanced Reasoning Model （KERM）的 Vision-and-language navigation (VLN) 模型，通过整合从语言描述中提取出来的知识，结合视觉、历史、指令和事实特征，提高了实体代理从自然语言指令中导航到远程位置的能力，并在三个数据集上进行的实验结果证明了该方法的有效性。

Abstract

vision-and-language navigation (VLN) is the task to enable an embodied agent to navigate to a remote location following the natural language instruction in real scenes. Most of the previous approaches utilize the

vision-and-language navigation knowledge enhanced reasoning model agent navigation natural language instruction knowledge base

发现论文，激发创造

利用自监督辅助推理任务的视觉语言导航

本文提出了一种基于自我监督的辅助推理导航（AuxRN）框架，使用四个辅助推理任务来利用语义信息，通过这些额外训练信号来帮助代理获取语义表示的知识以便进行推理，进而建立对环境的全面感知，该方法在标准基准测试中实现了最佳效果，显著优于现有的最先进方法。

Nov, 2019

视觉语言导航的主动信息收集

该研究提出了一种基于人类导航行为的智能视觉语言导航策略，通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题，实验证明该方法能显著提高导航性能。

Jul, 2020

增强型常识知识用于远程物体定位

通过引入增强型常识知识模型 (ACK)，利用常识信息的时空知识图，增强代理导航，通过知识图感知跨模态和概念聚合模块来提升可视化表示和可视化文本数据对齐，同时引入基于常识的决策过程，实现更准确的本地动作预测。

Jun, 2024

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

连续的视觉语言导航中的前瞻探索及神经辐射表示

利用预训练的分层神经辐射表示模型产生多层次语义特征，用于预测未来环境，提出前瞻导航模型以构建可导航的未来路径树并通过有效的并行评估选择最佳路径。

Apr, 2024

基于图形的连续环境中视觉语言导航的环境表征

本研究介绍了一种基于环境表示图（ERG）的跨模式注意力导航模型来解决语言说明与环境之间的联系问题，并在 VLN-CE 任务的成功率方面表现出令人满意的表现。

Jan, 2023

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024

邻居视图增强的视觉语言导航模型

本文提出了一种新的多模块的 Neighbor-View Enhanced Model (NvEM) 方法，通过利用相邻视图的视觉上下文信息和注意机制应对视觉和文本匹配不足的问题，并采用动作模块进行操纵指导，通过实验在 R2R 和 R4R 基准测试中展示了其效果的优越性。

Jul, 2021