多模态变长记忆转换器用于视觉语言导航

ECCVNov, 2021

多模态变长记忆转换器用于视觉语言导航

Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation

Chuang Lin, Yi Jiang, Jianfei Cai, Lizhen Qu, Gholamreza Haffari...

TL;DR此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器（MTVM）方法，用于模拟时间上下文，通过在存储器库中直接存储先前激活来跟踪导航轨迹，并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估，该模型在验证集和测试集的成功率分别提高了 2％且将 CVDN 测试集的目标处理减少了 1.6m。

Abstract

vision-and-language navigation (VLN) is a task that an agent is required to follow a language instruction to navigate to the goal position, which relies on the ongoing interactions with the environment during moving. Recent Transformer-based VLN methods have made great progress benefit

vision-and-language navigation transformer-based methods multimodal transformer variable-length memory temporal context modeling

发现论文，激发创造

面向视觉和语言导航的历史感知多模态 Transformer

通过引入一种历史感知的多模式转换器来将长期历史包含在多模式决策中，以在视觉和语言导航中构建自主的视觉代理，进而通过使用强化学习进一步优化导航策略。

Oct, 2021

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

低层次视觉语言导航的多模态注意力网络

本文提出了一种基于全注意力机制的低层 VLN 架构，用于实现跨多个模态的长期路径规划，其中包括自然语言、图像和代理人的低级行为控制，实验结果表明其在两个数据集上均获得了良好的性能。

Nov, 2019

视觉 - 语言导航生成预训练 Transformer

在 Vision-and-Language Navigation (VLN) 领域中，我们提出了一种基于 Transformer 的生成预训练模型（VLN-GPT），通过建模轨迹序列依赖关系来增强效率，并在训练过程中采用离线预训练和在线优化的方法，性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。

May, 2024

一种用于导航的循环视觉语言 BERT 模型

本文提出了一种基于递归 BERT 模型的视觉与语言导航方法，该方法能够达到最先进的结果，并同时支持导航和指代表达任务的并行处理。

Nov, 2020

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

为什么只用文本：用多模态提示增强视觉与语言导航

Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.

Jun, 2024

通过跨模态记忆进行视觉 - 对话导航

本文提出了一种跨模态记忆网络（CMN），通过两个记忆模块（L-mem 和 V-mem）协同学习，实现了历史导航决策的探索，有效地解决了视觉对话导航中的语言意图处理问题，并在 CVDN 数据集上取得了显著的性能提升。

Mar, 2020

使用 Transformer 的拓扑规划实现视觉语言导航

本文介绍了一种基于模块化方法的视觉和语言导航技术，使用拓扑地图和注意机制来生成导航计划，并通过低级动作执行控制器实现。实验证明，该方法在自由遍历环境下优于以往的端到端方法。

Dec, 2020