机器人导航的音视频语言地图

Mar, 2023

Audio Visual Language Maps for Robot Navigation

Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard

TL;DR提出了一种名为 Audio-Visual-Language Maps (AVLMaps) 的 3D 空间地图表达方式，集成了来自音频、视觉和语言提示的跨模态信息，可以通过多模态引导实现零样本多模态目标导航，并在模糊场景中提供 50％更好的召回率。

Abstract

While interacting in the world is a multi-sensory experience, many robots continue to predominantly rely on visual perception to map and navigate in their environments. In this work, we propose audio-visual-language maps (AVLMaps), a unified →

robotics audio-visual-language maps multimodal navigation 3d spatial map open-vocabulary

发现论文，激发创造

机器人导航的视觉语言地图

本研究提出了 VLMaps，一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示，其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建，并且可以与多种类型的机器人共享，能够进行导航的同时生成新的障碍物地图。实验表明，VLMaps 可以支持人类语言含义更丰富的导航指令。

Oct, 2022

AVLEN: 3D 环境下语音 - 视觉 - 语言体现式导航

AVLEN 是一种具有自主探索和人类辅助查询功能的音视频与自然语言导航机器人，通过多模态强化学习对其进行训练，实现了在语言帮助下对声音事件的模态搜索，优化了在复杂情况下的语音 - 视觉导航。

Oct, 2022

观察，聆听和行动：走向音频视觉具身化导航

本文描述了一种音频 - 视觉导航方案，该方案基于移动智能机器人，利用可微卷积神经网络学习视觉感知器和声音感知器，以及动态路径规划器，实现在室内环境中通过音频和视觉数据计算从机器人当前位置到声源的最短路径。

Dec, 2019

学习为视听导航设置路径点

本文介绍了一种基于强化学习的音视觉导航方法，通过动态设置和学习的航点和声音记忆，利用视觉和声音数据揭示了未映射空间的几何结构，实验结果表明，学习视听空间之间的联系对于音视觉导航至关重要。

Aug, 2020

声音空间： 3D 环境下的音视导航

本研究介绍了一种复杂的，声音和视觉逼真的三维环境中的音频视觉导航方法，使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces，在现实环境中插入任意声源。研究结果表明，在三维空间中，音频对于具身视觉导航有很大的帮助，为音频视觉感知的体验机器人研究奠定了基础。

Dec, 2019

IVLMap: 消费级机器人导航的实例感知视觉语言定位

通过构建语义空间地图和使用大型语言模型的强大推理能力，我们提出了一种新的方法 IVLMap，使机器人能够获得实例级和属性级的语义映射，从而实现了精确定位和零 - shot 端到端导航任务的能力，并在导航准确性上实现了 14.4% 的平均改进。

Mar, 2024

语义音视频导航

介绍了语义音频可视化导航的概念，提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务，拥有持久的多模态记忆，通过学习语义、声音和视觉提示的关联性，可实现在声音事件停止后，仍能到达目标的导航能力。

Dec, 2020

多目标音频视觉导航使用声音定向图

我们提出了一个新的框架，用于多目标音视频导航任务，并研究了这个任务相对于当前导航任务的困难性。我们采用一种名为声音方向图（SDM）的方法来缓解这个新任务的困难，该方法在学习的基础上动态地定位多个声音源。实验结果表明，无论目标数量如何，使用 SDM 能显著提高多个基准方法的性能。

Aug, 2023

AVLnet：从教育视频中学习音频 - 视觉语言表示

本文提出了一种自我监督网络 AVLnet，可从视频中直接学习共享的音频 - 视觉嵌入空间，并通过分析 AVLnet 的学习表示提出了一种三模态模型，用于学习多模态语义嵌入空间，其中包括用于音视频检索的文本标题。

Jun, 2020

面向音频 - 视觉导航的泛化音频表示

该研究提出使用对比学习方法对音频编码器进行正则化以实现模型良好的扩展性，同时使用两种数据增强策略来增加训练声音，从而获得了 13.4% 在 Replica 和 12.2% 在 MP3D 的 SPL 性能增益。

Jun, 2022