子任务感知的视觉语言导航

Apr, 2020

Sub-Instruction Aware Vision-and-Language Navigation

Yicong Hong, Cristian Rodriguez-Opazo, Qi Wu, Stephen Gould

TL;DR本文提出了一个精细度更高的注释，以便在自然语言指令下更好地完成环境中的导航，为此使用了带有细致的注释的 Room-to-Room（R2R）基准数据集。并引入有效的子指令注意力和移位模块，在每个时间步选择并关注单个子指令，实现了此子指令模块，与四个最新的代理基线模型进行了比较，并展示了我们提出的方法改进了所有四个代理的性能。

Abstract

vision-and-language navigation requires an agent to navigate through a real 3D environment following natural language instructions. Despite significant advances, few previous works are able to fully utilize the strong correspondence between the visual and textual sequences. Meanwhile,

vision-and-language navigation real 3d environment fine-grained annotations sub-instruction attention room-to-room

发现论文，激发创造

VLN-Trans: 视觉语言导航代理翻译器

通过设计一个翻译模块，将原有语句转化为易于理解的子语句，该模块针对航行代理的视觉能力和环境观察结果，聚焦于可识别和有区分性的地标，通过训练翻译器和导航代理的特定任务，达到了在多个基准测试中取得最新颖成果的目标。

Feb, 2023

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

沿着路径前进：视觉语言导航中的指令准确度

通过对 Room-to-Room 数据集的评估提出新的评价指标 CLS，并且创建了新数据集 Room-for-Room (R4R) 用于指导指令跟踪的任务，同时通过比较与基准系统，表明重视指令的代理程序优于重视目标完成的代理程序。

May, 2019

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

NavHint: 具备提示生成器的视觉和语言导航智能体

导航和语言导航的现有研究主要依赖于导航相关的损失，以建立视觉和语言模态之间的联系，忽视了帮助导航代理机构建立对视觉环境的深入理解的方面。在我们的工作中，我们通过提示生成器为导航代理提供间接监督，提供详细的视觉描述。提示生成器帮助导航代理机构开发对视觉环境的整体理解，指导代理机构注意相关的导航细节，包括相关的子指导、识别的潜在挑战和限制、以及目标视点描述。为了训练提示生成器，我们根据指导中的地标和可见的与众不同的物体构建了一个合成数据集。我们在 R2R 和 R4R 数据集上评估了我们的方法，并在几个度量标准上取得了最先进的结果。实验结果表明，生成提示不仅提高了导航性能，还有助于提高代理机构行动的可解释性。

Feb, 2024

MLANet：基于子指令的多级注意力网络，用于连续的视觉语言导航

为了更好地在连续的虚拟现实环境中实现语音导航，本文提出了一个多层次的指令理解机制和一个名为 MLANet 的新模型，它包含子指令生成的快速算法 (FSA)、多层次关注模块 (MLA) 来调和指令和视觉信号，以及用于提高对当前子指令选择能力的峰值关注损失 (PAL)，实验结果表明 MLANet 优于基线模型。

Mar, 2023

可访问的指令跟随代理

UVLN (Universal Vision-Language Navigation) 是一种新颖的增强型机器翻译指令框架，利用大型语言模型（GPT3）和图像标题模型（BLIP）的新颖组合，将传统的指令跟随代理推广到多语言和低资源语言等复杂领域，将不同语言之间的对齐通过跨模态变压器，对语言指令、视觉观察和动作决策序列进行编码、捕获和传递。

May, 2023

基于基础模型的视觉与语言能力的行动感知零样本机器人导航

我们提出了一种基于动作感知的零样本图像与语言导航（ZS-VLN）方法（$A^2$Nav），通过利用基础模型的视觉和语言能力，将复杂的导航指令分解为一系列具有特定动作要求的对象导航子任务，然后学习一个由已收集到的具有不同特征的动作数据集构建的动作感知导航策略，以便按顺序执行这些子任务，从而实现导航指令的完整执行。实验证明，$A^2$Nav 在零样本图像与语言导航方面具有很好的性能，并且在 R2R-Habitat 和 RxR-Habitat 数据集上甚至超过了监督学习方法。

Aug, 2023

对比指导 - 轨迹学习用于视觉 - 语言导航

本文提出了 Contrastive Instruction-Trajectory Learning（CITL）框架，通过粗粒度的对比学习和细粒度的对比学习目标来学习视觉和语言表示，同时采用逐对样本加权机制来增强模型的鲁棒性和泛化性，该方法在视觉和语言导航领域取得了最好的性能。

Dec, 2021