新路径：使用合成指令和模仿学习扩展视觉语言导航

Oct, 2022

新路径：使用合成指令和模仿学习扩展视觉语言导航

A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation Learning

Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku...

TL;DR利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Abstract

Recent studies in vision-and-language navigation (VLN) train rl agents to execute natural-language navigation instructions in photorealistic environments, as a step towards →

vision-and-language navigation robots rl agents large-scale imitation learning synthetic instruction generation

发现论文，激发创造

从 YouTube 视频中学习视觉与语言导航

通过利用大规模的房屋导览视频数据集，本文提出了一种视觉语言导航方法，使用自动构建的路径指令对训练的代理进行预训练，并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明，该方法在两个流行的基准测试（R2R 和 REVERIE）上取得了最先进的性能。

Jul, 2023

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

强化跨模态匹配和自监督模仿学习用于视觉语言导航

本文提出 Reinforced Cross-Modal Matching 和 Self-Supervised Imitation Learning 两个方法来解决语视导航中的跨模态匹配、学习反馈以及泛化问题，并通过实验证明这两种方法较之前的方法显著提高了成功率和准确度。

Nov, 2018

视觉与语言导航中的数据生成扩展

通过构建大规模数据集，研究了语言引导的视觉导航中各个组成部分对代理性能的影响，并通过简单模仿学习将现有代理的性能推向了一个显著的新高度，成功率达到了 80％，并将在已见和未见环境中导航的泛化差距降低到不到 1％。

Jul, 2023

具备语言预训练和随机采样的稳健导航

本文提出了两种有效方法来改善视觉和语言导航 (VLN) 挑战中的指令表示和动作解码问题，一是使用大规模预训练语言模型来学习更好的文本表示，二是提出一种随机采样方案来减小训练和测试中动作的差距，从而使智能体可以在长序列的动作解码过程中学习自我纠正，将两项技术结合，成功地在 Room-to-Room 基准测试中取得了新的最优性能，以路径长度加权的成功率指标提高了 6% 绝对值 (47%—>53%)。

Sep, 2019

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

迭代式视觉语言导航

本研究提出了一种名为 IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

视觉 - 语言导航生成预训练 Transformer

在 Vision-and-Language Navigation (VLN) 领域中，我们提出了一种基于 Transformer 的生成预训练模型（VLN-GPT），通过建模轨迹序列依赖关系来增强效率，并在训练过程中采用离线预训练和在线优化的方法，性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。

May, 2024