空中视觉和对话导航

May, 2022

Aerial Vision-and-Dialog Navigation

Yue Fan, Winson Chen, Tongzhou Jiang, Chun Zhou, Yi Zhang...

TL;DR本文提出 Aerial Vision-and-Dialog Navigation (AVDN) 技术，利用自然语言对话方式实现无人机的导航，研究使用 AVDN 数据集实现从全对话历史中进行航行的任务，并提出一种有效的 Human Attention Aided (HAA) 基线模型，通过预测导航航点和人类注意力实现自动导航。

Abstract

The ability to converse with humans and follow commands in natural language is crucial for intelligent unmanned aerial vehicles (a.k.a. drones). It can relieve people's burden of holding a controller all the time, allow multitasking, and make →

unmanned aerial vehicles natural language conversation drone control avdn dataset human attention aided

发现论文，激发创造

基于人类注意力辅助的航空视觉与对话导航的多模型融合

发展能够与人类交流并遵循自然语言命令的智能无人机，该研究提出了一种基于 AVDN 数据集的高效融合训练方法，使用 HAA-Transformer 模型和 HAA-LSTM 模型，对导航路由点和人的注意力进行预测，并在 SR、SPL 指标上取得高效果，相比基线模型，GP 指标有 7% 的改进。

Aug, 2023

无人机视觉与语言导航：AerialVLN

提出了一项名为 AerialVLN 的新任务，基于无人机（UAV）的、面向室外环境的导航，在提出的 3D 模拟器中使用高度逼真的城市景观照片进行连续导航并进行环境扩展和配置，基于跨模态对齐（CMA）导航方法的扩展基线模型，发现基线模型与人类表现之间仍存在显著差距，表明 AerialVLN 是一项具有挑战性的新任务。

Aug, 2023

视觉和对话导航

提出了 Cooperative Vision-and-Dialog Navigation 数据集，定义了 Navigation from Dialog History 任务，使用序列到序列模型解决人机对话中机器人导航的问题，并进一步证明历史对话越长，性能越好。

Jul, 2019

CityNav: 具备地理信息的语言目标空中导航数据集

通过真实世界的城市的三维点云表示，CityNav 数据集提供了 32,637 个自然语言描述与人类演示轨迹的配对，作为语言目标的航空导航的新数据集。该数据集揭示了以下关键发现：（一）在航空代理模型上，基于人类演示轨迹的训练优于最短路径轨迹的训练，突出了人类驱动导航策略的重要性；（二）在城市尺度上，二维空间地图的整合显著提高了导航效率。

Jun, 2024

面向航空视觉与对话导航的目标感知图形感知变压器

本研究提出了一种目标感知的图注意力变换器（TG-GAT）框架，用于无人机代理相关对话历史与航空观测的关联，以实现导航任务，并通过大型语言模型实现辅助视觉以及数据增强策略，有效提高导航性能。

Aug, 2023

人类感知视觉 - 语言导航：通过动态人类交互缩小模拟与现实之间的鸿沟

Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.

Jun, 2024

A3D：边缘辅助飞行器的自适应、准确、自主导航

利用深度神经网络改进自主无人机导航，提出 A3D 边缘服务器辅助的无人机导航框架，可动态调整任务执行位置、输入分辨率和图像压缩比，以实现低推理延迟、高预测准确性和长飞行距离。证实 A3D 相比非自适应方案可将端到端延迟减少 28.06％，飞行距离延长高达 27.28％。

Jul, 2023

基于对话的机器人辅助导航系统：视觉语言基础

提出了 DRAGON，一种由对话系统驱动的导航机器人，通过理解用户的命令，DRAGON 能够引导用户到地图上所需的地标，描述环境，并回答来自视觉观察的问题。通过对话的有效利用，机器人可以将用户的自由形式描述与环境中的地标联系起来，并通过口语提供语义信息。在日常室内环境中开展了一个盲目的用户研究，结果表明 DRAGON 能够与用户顺畅交流，提供良好的导航体验，并以直观的方式连接用户与周围环境。

Jul, 2023

视觉与语言导航：任务、方法和未来发展综述

本文综述了 Vision-and-Language Navigation（VLN）这一领域的现有研究，包括任务、评价指标、方法等，并通过结构化分析当前进展和挑战，强调了当前 VLN 的局限性和未来工作的机遇，是 VLN 研究社区的详尽参考。

Mar, 2022

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017