音频 - 视觉导航的模拟到现实迁移和频率自适应声场预测

May, 2024

音频 - 视觉导航的模拟到现实迁移和频率自适应声场预测

Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction

Changan Chen, Jordi Ramos, Anshul Tomar, Kristen Grauman

TL;DR在学习机器人任务与模拟端到端成功的基础上，视觉导航策略的转换取得了很大进展，然而，现有的声音 - 视觉导航的模拟到真实转换策略在进行数据增强时往往是经验性的，而没有对声学差异进行测量。本文提出了首个声音 - 视觉导航的模拟到真实处理方法，将其分解为声学场预测和路标导航，通过在 SoundSpaces 模拟器上验证我们的设计选择并在连续音频目标导航基准上展示改进，通过训练仅接受特定频率子带作为输入的声学场预测模型来收集真实世界数据，测量模拟与真实世界之间的频谱差异，进一步提出基于测量频谱差异和接收音频能量分布的频率自适应策略，从而改善在真实数据上的性能，最后，我们构建了一个真实的机器人平台，并展示了转化的策略能够成功导航到具有声音的对象。这项工作展示了在完全从模拟中看、听和行动的智能代理构建的潜力，并将其转移到真实世界。

Abstract

sim2real transfer has received increasing attention lately due to the success of learning robotic tasks in simulation end-to-end. While there has been a lot of progress in transferring vision-based navigation policies, the existing sim2real strategy for →

sim2real transfer audio-visual navigation acoustic gap spectral difference intelligent agents

发现论文，激发创造

声音空间： 3D 环境下的音视导航

本研究介绍了一种复杂的，声音和视觉逼真的三维环境中的音频视觉导航方法，使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces，在现实环境中插入任意声源。研究结果表明，在三维空间中，音频对于具身视觉导航有很大的帮助，为音频视觉感知的体验机器人研究奠定了基础。

Dec, 2019

学习为视听导航设置路径点

本文介绍了一种基于强化学习的音视觉导航方法，通过动态设置和学习的航点和声音记忆，利用视觉和声音数据揭示了未映射空间的几何结构，实验结果表明，学习视听空间之间的联系对于音视觉导航至关重要。

Aug, 2020

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020

基于世界模型的视觉导航的 Sim2Real 迁移

一种使用 Bird's Eye View 图像作为中间表示的系统，在模拟器中训练并能够通过零样本转移到真实世界，在真实世界环境中通过 Anchor 图像和混合密度 LSTM 增强鲁棒性，通过 Differential drive 机器人在 CARLA 模拟器中的训练和部署证明了该方法的有效性，并公开了相关代码、数据集和模型。

Oct, 2023

在移动声音的复杂未被地图化的环境中进行音频 - 视觉导航

本文提出了动态视听导航基准，介绍了融合空间特征的视听信息的体系结构，并通过强化学习方法学习了复杂环境下的稳健导航策略，研究表明，该方法在捕捉移动声源、未知声源和嘈杂环境方面具有显著的性能优势。

Nov, 2021

语义音视频导航

介绍了语义音频可视化导航的概念，提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务，拥有持久的多模态记忆，通过学习语义、声音和视觉提示的关联性，可实现在声音事件停止后，仍能到达目标的导航能力。

Dec, 2020

观察，聆听和行动：走向音频视觉具身化导航

本文描述了一种音频 - 视觉导航方案，该方案基于移动智能机器人，利用可微卷积神经网络学习视觉感知器和声音感知器，以及动态路径规划器，实现在室内环境中通过音频和视觉数据计算从机器人当前位置到声源的最短路径。

Dec, 2019

在实际环境中学习高效准确导航

在自主导航的地面机器人领域，现有的研究大多使用真实感的动力学和感知模型，而本篇论文致力于通过在仿真环境中进行端到端的训练，减小模型在现实机器人平台上的差距，并取得了显著的性能和稳健性的提升。

Jan, 2024

自我注意力视听导航

本文提出了一种叫做 FSAAVN 的端到端框架，通过自我关注模块，实现了上下文感知的视听融合策略，学习追逐一个移动的音频目标。实验证明，与现有技术相比，FSAAVN 在视觉模态、视听编码器和融合模式的选择方面表现出更高的优越性。

Oct, 2022

真实声场：一个音频 - 视觉房间声学数据集与基准

我们提出了一个名为 Real Acoustic Fields（RAF）的新数据集，其中包含了从多种模态捕获的真实声场数据。该数据集包括了与多视图图像配对的高质量密集捕获的房间脉冲响应数据，以及声音发射器和听者的精确 6DoF 姿态跟踪数据。我们利用该数据集评估了现有的新视角声学合成和脉冲响应生成方法，并提出了用于增强它们在真实世界数据上表现的设置。我们还通过实验调查了将视觉数据（图像和深度）与神经声学场模型相结合的影响。此外，我们展示了一种简单的模拟 - 真实方法的有效性，即使用模拟数据进行预训练，并用稀疏的真实数据进行微调，从而显著改善了少样本学习方法。RAF 是第一个提供了密集捕获房间声学数据的数据集，对于从事音频和音频 - 视觉神经声学场建模技术的研究人员来说，它是一个理想的资源。我们的项目页面提供演示和数据集：https:// 此处 URL

Mar, 2024