在无标注三维环境中学习视觉语言导航

ECCVAug, 2022

在无标注三维环境中学习视觉语言导航

Learning from Unlabeled 3D Environments for Vision-and-Language Navigation

Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev

TL;DR本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Abstract

In vision-and-language navigation (VLN), an embodied agent is required to navigate in realistic 3D environments following natural language instructions. One major bottleneck for existing VLN approaches is the lack of sufficient training data, resulting in unsatisfactory generalization

vision-and-language navigation data scarcity large-scale dataset cross-modal gap pretrained language model

发现论文，激发创造

从 YouTube 视频中学习视觉与语言导航

通过利用大规模的房屋导览视频数据集，本文提出了一种视觉语言导航方法，使用自动构建的路径指令对训练的代理进行预训练，并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明，该方法在两个流行的基准测试（R2R 和 REVERIE）上取得了最先进的性能。

Jul, 2023

人类感知视觉 - 语言导航：通过动态人类交互缩小模拟与现实之间的鸿沟

Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.

Jun, 2024

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

VLN-Video：利用行车视频进行户外视觉语言导航

提出了 VLN-Video 方法来改善室外视觉与语言导航的性能，利用驾驶视频中多个城市的多样化室外环境和自动生成的导航指令和行动，通过结合传统直觉方法和现代深度学习技术进行预训练和微调，实现了在 Touchdown 数据集上 2.1％的任务完成率的显著提升，达到了最新的技术水平。

Feb, 2024

视觉语言导航的体积环境表示

基于视觉观察和自然语言指令，本论文提出了一种基于体素化环境表示的视觉语言导航模型，在多任务学习的影响下，预测 3D 占用、3D 房间布局和 3D 边界框，并通过在线采集的环境表示进行体积状态估计和建立序列记忆，取得了在 VLN 基准测试（R2R，REVERIE 和 R4R）上最先进的性能。

Mar, 2024

MO-VLN: 一个用于开放集零样本视觉与语言导航的多任务基准测试

提出一个名为 MO-VLN 的基准测试系统，用于测试机器人智能导航的效果和泛化能力。该系统包含三个逼真的 3D 场景，并涉及多个复杂的非常见物体，任务包括目标定位和高级指令追踪等。

Jun, 2023

无人机视觉与语言导航：AerialVLN

提出了一项名为 AerialVLN 的新任务，基于无人机（UAV）的、面向室外环境的导航，在提出的 3D 模拟器中使用高度逼真的城市景观照片进行连续导航并进行环境扩展和配置，基于跨模态对齐（CMA）导航方法的扩展基线模型，发现基线模型与人类表现之间仍存在显著差距，表明 AerialVLN 是一项具有挑战性的新任务。

Aug, 2023

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022