基于活跃稀疏对话的音视频体感导航改进

Jun, 2023

Active Sparse Conversations for Improved Audio-Visual Embodied Navigation

Xiulong Liu, Sudipta Paul, Moitreya Chatterjee, Anoop Cherian

TL;DR提出了一个交谈式的视听代理机器人 CAVEN，该机器人能够使用多模态强化学习来帮助人 / 预测正确的下一个动作并提出问题，并在语音搜索过程中与人 / 专家互动，尤其在定位新的声源时性能更优。

Abstract

Efficient navigation towards an audio-goal necessitates an embodied agent to not only possess the ability to use audio-visual cues effecti

发现论文，激发创造

AVLEN 是一种具有自主探索和人类辅助查询功能的音视频与自然语言导航机器人，通过多模态强化学习对其进行训练，实现了在语言帮助下对声音事件的模态搜索，优化了在复杂情况下的语音 - 视觉导航。

Oct, 2022

本文描述了一种音频 - 视觉导航方案，该方案基于移动智能机器人，利用可微卷积神经网络学习视觉感知器和声音感知器，以及动态路径规划器，实现在室内环境中通过音频和视觉数据计算从机器人当前位置到声源的最短路径。

Dec, 2019

本研究介绍了一种复杂的，声音和视觉逼真的三维环境中的音频视觉导航方法，使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces，在现实环境中插入任意声源。研究结果表明，在三维空间中，音频对于具身视觉导航有很大的帮助，为音频视觉感知的体验机器人研究奠定了基础。

Dec, 2019

本文介绍了一种基于强化学习的音视觉导航方法，通过动态设置和学习的航点和声音记忆，利用视觉和声音数据揭示了未映射空间的几何结构，实验结果表明，学习视听空间之间的联系对于音视觉导航至关重要。

Aug, 2020

该研究提出使用对比学习方法对音频编码器进行正则化以实现模型良好的扩展性，同时使用两种数据增强策略来增加训练声音，从而获得了 13.4% 在 Replica 和 12.2% 在 MP3D 的 SPL 性能增益。

Jun, 2022

本文提出了一种叫做 FSAAVN 的端到端框架，通过自我关注模块，实现了上下文感知的视听融合策略，学习追逐一个移动的音频目标。实验证明，与现有技术相比，FSAAVN 在视觉模态、视听编码器和融合模式的选择方面表现出更高的优越性。

Oct, 2022

基于交叉任务导航技能迁移的全向音频视觉导航器 ORAN，通过信心感知的交叉任务策略提炼（CCPD）和全向信息收集（OIG）的机制，显著超越以往的竞争对手，提高了音空间挑战 2022 年的 SPL 和 SR 等指标。

Aug, 2023

介绍了语义音频可视化导航的概念，提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务，拥有持久的多模态记忆，通过学习语义、声音和视觉提示的关联性，可实现在声音事件停止后，仍能到达目标的导航能力。

Dec, 2020

提出了一种名为 Audio-Visual-Language Maps (AVLMaps) 的 3D 空间地图表达方式，集成了来自音频、视觉和语言提示的跨模态信息，可以通过多模态引导实现零样本多模态目标导航，并在模糊场景中提供 50％更好的召回率。

Mar, 2023

本文提出了动态视听导航基准，介绍了融合空间特征的视听信息的体系结构，并通过强化学习方法学习了复杂环境下的稳健导航策略，研究表明，该方法在捕捉移动声源、未知声源和嘈杂环境方面具有显著的性能优势。

Nov, 2021