视觉语言导航中可转移的表征学习

ICCVAug, 2019

视觉语言导航中可转移的表征学习

Transferable Representation Learning in Vision-and-Language Navigation

Haoshuo Huang, Vihan Jain, Harsh Mehta, Alexander Ku, Gabriel Magalhaes...

TL;DR我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Abstract

Vision-and-Language Navigation (VLN) tasks such as Room-to-Room (R2R) require machine agents to interpret natural language instructions and learn to act in visually realistic environments to achieve navigation goals. The overall task requires competence in several perception problems:

vision-and-language navigation (vln)room-to-room (r2r)pre-trained vision and language representations perception problems domain-adapted representations

发现论文，激发创造

迭代式视觉语言导航

本研究提出了一种名为 IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024

VLN-Trans: 视觉语言导航代理翻译器

通过设计一个翻译模块，将原有语句转化为易于理解的子语句，该模块针对航行代理的视觉能力和环境观察结果，聚焦于可识别和有区分性的地标，通过训练翻译器和导航代理的特定任务，达到了在多个基准测试中取得最新颖成果的目标。

Feb, 2023

具备语言预训练和随机采样的稳健导航

本文提出了两种有效方法来改善视觉和语言导航 (VLN) 挑战中的指令表示和动作解码问题，一是使用大规模预训练语言模型来学习更好的文本表示，二是提出一种随机采样方案来减小训练和测试中动作的差距，从而使智能体可以在长序列的动作解码过程中学习自我纠正，将两项技术结合，成功地在 Room-to-Room 基准测试中取得了新的最优性能，以路径长度加权的成功率指标提高了 6% 绝对值 (47%—>53%)。

Sep, 2019

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

LOViS: 为视觉语言导航学习方向和视觉信号

本文设计了一种具有显式方向和视觉模块的神经代理，通过特定的预训练任务，强化代理的空间推理和视觉感知，在 Room2room 和 Room4room 数据集上均取得了最先进的结果。

Sep, 2022

沿着路径前进：视觉语言导航中的指令准确度

通过对 Room-to-Room 数据集的评估提出新的评价指标 CLS，并且创建了新数据集 Room-for-Room (R4R) 用于指导指令跟踪的任务，同时通过比较与基准系统，表明重视指令的代理程序优于重视目标完成的代理程序。

May, 2019

语言和视觉实体关系图用于智能体导航

通过提出一种语言和视觉实体关系图及信息传递算法，成功解决了视觉和语言的跨模态关系，提升了在 Room-to-Room 和 Room-for-Room 测试数据集的表现。

Oct, 2020