VLN-Trans: 视觉语言导航代理翻译器

Feb, 2023

VLN-Trans: 视觉语言导航代理翻译器

VLN-Trans: Translator for the Vision and Language Navigation Agent

Yue Zhang, Parisa Kordjamshidi

TL;DR通过设计一个翻译模块，将原有语句转化为易于理解的子语句，该模块针对航行代理的视觉能力和环境观察结果，聚焦于可识别和有区分性的地标，通过训练翻译器和导航代理的特定任务，达到了在多个基准测试中取得最新颖成果的目标。

Abstract

language understanding is essential for the navigation agent to follow instructions. We observe two kinds of issues in the instructions that can make the navigation task challenging: 1. The mentioned landmarks ar

language understanding navigation agent translator module visual abilities synthetic sub-instruction dataset

发现论文，激发创造

LOViS: 为视觉语言导航学习方向和视觉信号

本文设计了一种具有显式方向和视觉模块的神经代理，通过特定的预训练任务，强化代理的空间推理和视觉感知，在 Room2room 和 Room4room 数据集上均取得了最先进的结果。

Sep, 2022

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

NavHint: 具备提示生成器的视觉和语言导航智能体

导航和语言导航的现有研究主要依赖于导航相关的损失，以建立视觉和语言模态之间的联系，忽视了帮助导航代理机构建立对视觉环境的深入理解的方面。在我们的工作中，我们通过提示生成器为导航代理提供间接监督，提供详细的视觉描述。提示生成器帮助导航代理机构开发对视觉环境的整体理解，指导代理机构注意相关的导航细节，包括相关的子指导、识别的潜在挑战和限制、以及目标视点描述。为了训练提示生成器，我们根据指导中的地标和可见的与众不同的物体构建了一个合成数据集。我们在 R2R 和 R4R 数据集上评估了我们的方法，并在几个度量标准上取得了最先进的结果。实验结果表明，生成提示不仅提高了导航性能，还有助于提高代理机构行动的可解释性。

Feb, 2024

子任务感知的视觉语言导航

本文提出了一个精细度更高的注释，以便在自然语言指令下更好地完成环境中的导航，为此使用了带有细致的注释的 Room-to-Room（R2R）基准数据集。并引入有效的子指令注意力和移位模块，在每个时间步选择并关注单个子指令，实现了此子指令模块，与四个最新的代理基线模型进行了比较，并展示了我们提出的方法改进了所有四个代理的性能。

Apr, 2020

迭代式视觉语言导航

本研究提出了一种名为 IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022