面向音频 - 视觉导航的泛化音频表示

CVPRJun, 2022

面向音频 - 视觉导航的泛化音频表示

Towards Generalisable Audio Representations for Audio-Visual Navigation

Shunqi Mao, Chaoyi Zhang, Heng Wang, Weidong Cai

TL;DR该研究提出使用对比学习方法对音频编码器进行正则化以实现模型良好的扩展性，同时使用两种数据增强策略来增加训练声音，从而获得了 13.4% 在 Replica 和 12.2% 在 MP3D 的 SPL 性能增益。

Abstract

In audio-visual navigation (AVN), an intelligent agent needs to navigate to a constantly sound-making object in complex 3D environments based on its audio and visual perceptions. While existing methods attempt to improve the navigation performance with preciously designed path planning

audio-visual navigation contrastive learning-based method sound-agnostic goal-driven latent representations data augmentation strategies performance gain

发现论文，激发创造

学习为视听导航设置路径点

本文介绍了一种基于强化学习的音视觉导航方法，通过动态设置和学习的航点和声音记忆，利用视觉和声音数据揭示了未映射空间的几何结构，实验结果表明，学习视听空间之间的联系对于音视觉导航至关重要。

Aug, 2020

声音空间： 3D 环境下的音视导航

本研究介绍了一种复杂的，声音和视觉逼真的三维环境中的音频视觉导航方法，使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces，在现实环境中插入任意声源。研究结果表明，在三维空间中，音频对于具身视觉导航有很大的帮助，为音频视觉感知的体验机器人研究奠定了基础。

Dec, 2019

AVLEN: 3D 环境下语音 - 视觉 - 语言体现式导航

AVLEN 是一种具有自主探索和人类辅助查询功能的音视频与自然语言导航机器人，通过多模态强化学习对其进行训练，实现了在语言帮助下对声音事件的模态搜索，优化了在复杂情况下的语音 - 视觉导航。

Oct, 2022

观察，聆听和行动：走向音频视觉具身化导航

本文描述了一种音频 - 视觉导航方案，该方案基于移动智能机器人，利用可微卷积神经网络学习视觉感知器和声音感知器，以及动态路径规划器，实现在室内环境中通过音频和视觉数据计算从机器人当前位置到声源的最短路径。

Dec, 2019

语义音视频导航

介绍了语义音频可视化导航的概念，提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务，拥有持久的多模态记忆，通过学习语义、声音和视觉提示的关联性，可实现在声音事件停止后，仍能到达目标的导航能力。

Dec, 2020

自我注意力视听导航

本文提出了一种叫做 FSAAVN 的端到端框架，通过自我关注模块，实现了上下文感知的视听融合策略，学习追逐一个移动的音频目标。实验证明，与现有技术相比，FSAAVN 在视觉模态、视听编码器和融合模式的选择方面表现出更高的优越性。

Oct, 2022

基于活跃稀疏对话的音视频体感导航改进

提出了一个交谈式的视听代理机器人 CAVEN，该机器人能够使用多模态强化学习来帮助人 / 预测正确的下一个动作并提出问题，并在语音搜索过程中与人 / 专家互动，尤其在定位新的声源时性能更优。

Jun, 2023

在移动声音的复杂未被地图化的环境中进行音频 - 视觉导航

本文提出了动态视听导航基准，介绍了融合空间特征的视听信息的体系结构，并通过强化学习方法学习了复杂环境下的稳健导航策略，研究表明，该方法在捕捉移动声源、未知声源和嘈杂环境方面具有显著的性能优势。

Nov, 2021

多目标音频视觉导航使用声音定向图

我们提出了一个新的框架，用于多目标音视频导航任务，并研究了这个任务相对于当前导航任务的困难性。我们采用一种名为声音方向图（SDM）的方法来缓解这个新任务的困难，该方法在学习的基础上动态地定位多个声音源。实验结果表明，无论目标数量如何，使用 SDM 能显著提高多个基准方法的性能。

Aug, 2023

机器人导航的音视频语言地图

提出了一种名为 Audio-Visual-Language Maps (AVLMaps) 的 3D 空间地图表达方式，集成了来自音频、视觉和语言提示的跨模态信息，可以通过多模态引导实现零样本多模态目标导航，并在模糊场景中提供 50％更好的召回率。

Mar, 2023