协作式视觉导航
本文提出了一种基于多智能体协作的视觉语义导航方法,通过分层决策框架、场景先验知识和通信机制,可以使多个机器人协同完成探索任务,并在测试实验中表现出与单一智能体模型相比更高的准确性和效率。
Sep, 2021
本研究提出了一种基于强化学习的算法,引入了新颖的多智能体规划模块 MSP 和空间平移变换器 Spatial-TeamFormer,实现了多智能体协作视觉探测,经过政策蒸馏提取的元策略大大提高了最终策略的泛化能力,并在一个真实的 3D 模拟器 Habitat 中表现出比经典规划方法更好的性能。
Oct, 2021
该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航(Robo-VLN)的设定,并利用分层决策,模块化训练和分离推理和模仿的策略,成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理,研究者展示了比现有基线效果更好的结果,为 Robo-VLN 创造了新的基准。
Apr, 2021
本研究提出了一个神经网络架构,旨在共同学习多个代理参与导航任务中的自适应状态空间抽象和通信协议,从而有效减少探索的状态空间的大小,并达到更好的政策性能。
Jun, 2023
本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集,并通过预训练的语言模型对数据集进行微调,从而解决 VLN 方法中的数据稀缺性问题,从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能,取得了良好效果。
Aug, 2022
Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.
Jun, 2024
基于视觉观察和自然语言指令,本论文提出了一种基于体素化环境表示的视觉语言导航模型,在多任务学习的影响下,预测 3D 占用、3D 房间布局和 3D 边界框,并通过在线采集的环境表示进行体积状态估计和建立序列记忆,取得了在 VLN 基准测试(R2R,REVERIE 和 R4R)上最先进的性能。
Mar, 2024
本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题,该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了 8%。
Oct, 2022
提出了一项名为 AerialVLN 的新任务,基于无人机(UAV)的、面向室外环境的导航,在提出的 3D 模拟器中使用高度逼真的城市景观照片进行连续导航并进行环境扩展和配置,基于跨模态对齐(CMA)导航方法的扩展基线模型,发现基线模型与人类表现之间仍存在显著差距,表明 AerialVLN 是一项具有挑战性的新任务。
Aug, 2023
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021