CityNav: 具备地理信息的语言目标空中导航数据集

Jun, 2024

CityNav: 具备地理信息的语言目标空中导航数据集

CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information

Jungdae Lee, Taiki Miyanishi, Shuhei Kurita, Koya Sakamoto, Daichi Azuma...

TL;DR通过真实世界的城市的三维点云表示，CityNav 数据集提供了 32,637 个自然语言描述与人类演示轨迹的配对，作为语言目标的航空导航的新数据集。该数据集揭示了以下关键发现：（一）在航空代理模型上，基于人类演示轨迹的训练优于最短路径轨迹的训练，突出了人类驱动导航策略的重要性；（二）在城市尺度上，二维空间地图的整合显著提高了导航效率。

Abstract

vision-and-language navigation (VLN) aims to guide autonomous agents through real-world environments by integrating visual and linguistic cues. While substantial progress has been made in understanding these interactive modalities in ground-level navigation, →

vision-and-language navigation aerial navigation citynav dataset human demonstration trajectories 2d spatial map

发现论文，激发创造

无人机视觉与语言导航：AerialVLN

提出了一项名为 AerialVLN 的新任务，基于无人机（UAV）的、面向室外环境的导航，在提出的 3D 模拟器中使用高度逼真的城市景观照片进行连续导航并进行环境扩展和配置，基于跨模态对齐（CMA）导航方法的扩展基线模型，发现基线模型与人类表现之间仍存在显著差距，表明 AerialVLN 是一项具有挑战性的新任务。

Aug, 2023

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

视觉与语言导航：任务、方法和未来发展综述

本文综述了 Vision-and-Language Navigation（VLN）这一领域的现有研究，包括任务、评价指标、方法等，并通过结构化分析当前进展和挑战，强调了当前 VLN 的局限性和未来工作的机遇，是 VLN 研究社区的详尽参考。

Mar, 2022

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

VLN-Video：利用行车视频进行户外视觉语言导航

提出了 VLN-Video 方法来改善室外视觉与语言导航的性能，利用驾驶视频中多个城市的多样化室外环境和自动生成的导航指令和行动，通过结合传统直觉方法和现代深度学习技术进行预训练和微调，实现了在 Touchdown 数据集上 2.1％的任务完成率的显著提升，达到了最新的技术水平。

Feb, 2024

WebVLN：基于视觉和语言的网站导航

该研究提出了一项名为 WebVLN 的新任务，利用问答形式的指令训练代理程序，模拟用户在网页上浏览的过程。与现有的 Vision-and-Language Navigation 任务相比，WebVLN 代理程序进一步考虑 HTML 等网页特定内容，通过构建在最先进的 VLN 技术基础之上的 WebVLN-Net 方法，在 VLN 和网页导航方法上取得了更好的表现。该研究的贡献在于创建了 WebVLN-v1 数据集，并为 VLN 领域与广泛的视觉与语言研究社区做出了新的探索。

Dec, 2023

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

一个考虑地标的视觉导航数据集

通过专家演示学习的地图表示已经显示出很大的研究价值。然而，由于缺乏真实世界中的人类数据集以有效监督环境学习的可视化导航领域近期发展面临挑战。我们提出了一个地标感知的视觉导航（LAVN）数据集，以便进行人类中心探索策略和地图构建的监督学习。我们收集了 RGB 观测和人类点击配对，人类标注者在虚拟和真实环境中进行探索，并以全覆盖探索空间为目标。人类标注者还提供了每个轨迹上的不同地标示例，我们直观地认为这将简化地图或图的构建和定位任务。当学习在环境中进行探索时，这些人类点击作为路径点的直接监督。我们的数据集涵盖了广泛的场景，包括室内环境中的房间和室外的走道。数据集可在 DOI：10.5281/zenodo.10608067 上获得。

Feb, 2024