视觉与语言导航中的数据生成扩展

ICCVJul, 2023

视觉与语言导航中的数据生成扩展

Scaling Data Generation in Vision-and-Language Navigation

Zun Wang, Jialu Li, Yicong Hong, Yi Wang, Qi Wu...

TL;DR通过构建大规模数据集，研究了语言引导的视觉导航中各个组成部分对代理性能的影响，并通过简单模仿学习将现有代理的性能推向了一个显著的新高度，成功率达到了 80％，并将在已见和未见环境中导航的泛化差距降低到不到 1％。

Abstract

Recent research in language-guided visual navigation has demonstrated a significant demand for the diversity of traversable environments and the quantity of supervision for training generalizable agents. To tackle the common →

language-guided visual navigation data scarcity large-scale data agent's performance generalization gap

发现论文，激发创造

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

生态环境合成场景数据集（HSSD-200）：3D 场景尺度和真实性权衡对于目标导航的分析

本文介绍 Habitat Synthetic Scene Dataset 数据集，并使用该数据集测试导航代理在逼真的三维环境中的泛化能力，研究合成 3D 场景数据集规模和真实性对于训练全方位代理寻找和导航至目标对象的影响，表明在保证场景真实性的前提下规模优势逐渐缩小，数据量更小的数据集在零样本泛化方面有优势。

Jun, 2023

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020

多模态大型语言模型用于视觉导航

通过简单的文本提示、当前观察和历史收集模型，我们的方法在视觉导航中对大型语言模型进行了精细调优，训练模型使用了来自 Habitat-Matterport 3D 数据集（HM3D）的人类示范和碰撞信号，实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。

Oct, 2023

自然语言基础下跨环境多任务学习导航

本研究提出从视觉语言导航和对话历史导航两个任务中学习的多任务导航模型，同时还探索了一种用于导航策略的环境无关表示法，并证明环境无关多任务学习可以显著降低在未见过环境上的性能差距。

Mar, 2020

沿着风景路线前行：提高视觉语言导航的泛化能力

通过对房间到房间的导航 (VLN) 基准进行研究，发现数据加工的方式很重要。我们发现最短路径采样在动作空间中编码偏见，从而解释了现有方法推广能力差的原因。为了减轻这种偏见，我们提出了一种基于随机游走的路径采样方法来增强数据，通过这种方法训练代理，其相比基线，能够更好地推广到未知环境，从而显着提高模型性能。

Mar, 2020

预期视觉语言导航中未知差异

本文提出了一种 Unseen Discrepancy Anticipating Vision and Language Navigation (DAVIS) 的方法，该方法通过鼓励测试时间视觉一致性来学习到在看不见的环境下泛化。DAVIS 利用了相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应，并基于强化学习与 Momentum Contrast 组合的混合模式来加强基本的模仿学习。在 R2R 和 RxR 数据集上的广泛实验表明，DAVIS 在视觉语言导航中取得了模型无关的最新进展。

Sep, 2022

NavHint: 具备提示生成器的视觉和语言导航智能体

导航和语言导航的现有研究主要依赖于导航相关的损失，以建立视觉和语言模态之间的联系，忽视了帮助导航代理机构建立对视觉环境的深入理解的方面。在我们的工作中，我们通过提示生成器为导航代理提供间接监督，提供详细的视觉描述。提示生成器帮助导航代理机构开发对视觉环境的整体理解，指导代理机构注意相关的导航细节，包括相关的子指导、识别的潜在挑战和限制、以及目标视点描述。为了训练提示生成器，我们根据指导中的地标和可见的与众不同的物体构建了一个合成数据集。我们在 R2R 和 R4R 数据集上评估了我们的方法，并在几个度量标准上取得了最先进的结果。实验结果表明，生成提示不仅提高了导航性能，还有助于提高代理机构行动的可解释性。

Feb, 2024

从 YouTube 视频中学习视觉与语言导航

通过利用大规模的房屋导览视频数据集，本文提出了一种视觉语言导航方法，使用自动构建的路径指令对训练的代理进行预训练，并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明，该方法在两个流行的基准测试（R2R 和 REVERIE）上取得了最先进的性能。

Jul, 2023