为什么只用文本：用多模态提示增强视觉与语言导航

IJCAIJun, 2024

为什么只用文本：用多模态提示增强视觉与语言导航

Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts

Haodong Hong, Sen Wang, Zi Huang, Qi Wu, Jiajun Liu

TL;DRVision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.

Abstract

Current vision-and-language navigation (VLN) tasks mainly employ textual instructions to guide agents. However, being inherently abstract, the same textual instruction can be associated with different visual signals, causing severe ambiguity and limiting the transfer of prior knowledge

vision-and-language navigation vln-mp multi-modal prompts visual prompts navigation performance

发现论文，激发创造

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

ADAPT: 视觉语言导航中的模态对齐行动提示

本文提出了一种 Modality-Alignment Action Prompts (ADAPT) 方法，通过显式学习行动水平的模态对齐来实现对视觉环境下指令级操作的感知导航，并通过对高质量行动提示进行收集来提升对相关提示的对齐性。

May, 2022

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

多模态变长记忆转换器用于视觉语言导航

此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器（MTVM）方法，用于模拟时间上下文，通过在存储器库中直接存储先前激活来跟踪导航轨迹，并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估，该模型在验证集和测试集的成功率分别提高了 2％且将 CVDN 测试集的目标处理减少了 1.6m。

Nov, 2021

基于提示的环境自主探索的视觉语言导航预训练

本文提出了一种基于 Prompt 的自我探索方法，通过对环境进行采样来自动生成结构化的指导，从而构建了一个无需人工标注的本地数据集，并引入基于 Prompt 的学习来提高语言嵌入的学习效率，进而大大提高了视觉 - 语言导航模型的泛化能力。

Mar, 2022

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

通过生成未来视角图像语义来提升视觉 - 语言导航能力

该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义，并通过三个代理任务和一项辅助损失来教授模型实现该目的；实验表明这种能力使智能体的性能得到了提升，并且学习如何预测未来视图语义使智能体对于长路径的表现更好。

Apr, 2023

移动之前进行讨论：通过多专家讨论进行视觉语言导航

通过与专家的讨论，我们引入了一种新的零射击视觉语言导航框架，命名为 DiscussNav，能够有效地增强导航性能。

Sep, 2023