空中视觉和对话导航
发展能够与人类交流并遵循自然语言命令的智能无人机,该研究提出了一种基于 AVDN 数据集的高效融合训练方法,使用 HAA-Transformer 模型和 HAA-LSTM 模型,对导航路由点和人的注意力进行预测,并在 SR、SPL 指标上取得高效果,相比基线模型,GP 指标有 7% 的改进。
Aug, 2023
提出了一项名为 AerialVLN 的新任务,基于无人机(UAV)的、面向室外环境的导航,在提出的 3D 模拟器中使用高度逼真的城市景观照片进行连续导航并进行环境扩展和配置,基于跨模态对齐(CMA)导航方法的扩展基线模型,发现基线模型与人类表现之间仍存在显著差距,表明 AerialVLN 是一项具有挑战性的新任务。
Aug, 2023
提出了 Cooperative Vision-and-Dialog Navigation 数据集,定义了 Navigation from Dialog History 任务,使用序列到序列模型解决人机对话中机器人导航的问题,并进一步证明历史对话越长,性能越好。
Jul, 2019
通过真实世界的城市的三维点云表示,CityNav 数据集提供了 32,637 个自然语言描述与人类演示轨迹的配对,作为语言目标的航空导航的新数据集。该数据集揭示了以下关键发现:(一)在航空代理模型上,基于人类演示轨迹的训练优于最短路径轨迹的训练,突出了人类驱动导航策略的重要性;(二)在城市尺度上,二维空间地图的整合显著提高了导航效率。
Jun, 2024
本研究提出了一种目标感知的图注意力变换器(TG-GAT)框架,用于无人机代理相关对话历史与航空观测的关联,以实现导航任务,并通过大型语言模型实现辅助视觉以及数据增强策略,有效提高导航性能。
Aug, 2023
Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.
Jun, 2024
利用深度神经网络改进自主无人机导航,提出 A3D 边缘服务器辅助的无人机导航框架,可动态调整任务执行位置、输入分辨率和图像压缩比,以实现低推理延迟、高预测准确性和长飞行距离。证实 A3D 相比非自适应方案可将端到端延迟减少 28.06%,飞行距离延长高达 27.28%。
Jul, 2023
提出了 DRAGON,一种由对话系统驱动的导航机器人,通过理解用户的命令,DRAGON 能够引导用户到地图上所需的地标,描述环境,并回答来自视觉观察的问题。通过对话的有效利用,机器人可以将用户的自由形式描述与环境中的地标联系起来,并通过口语提供语义信息。在日常室内环境中开展了一个盲目的用户研究,结果表明 DRAGON 能够与用户顺畅交流,提供良好的导航体验,并以直观的方式连接用户与周围环境。
Jul, 2023
本文综述了 Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前 VLN 的局限性和未来工作的机遇,是 VLN 研究社区的详尽参考。
Mar, 2022
通过视觉和语言方法的应用,本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator,为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。
Nov, 2017