May, 2024

音频 - 视觉导航的模拟到现实迁移和频率自适应声场预测

TL;DR在学习机器人任务与模拟端到端成功的基础上,视觉导航策略的转换取得了很大进展,然而,现有的声音 - 视觉导航的模拟到真实转换策略在进行数据增强时往往是经验性的,而没有对声学差异进行测量。本文提出了首个声音 - 视觉导航的模拟到真实处理方法,将其分解为声学场预测和路标导航,通过在 SoundSpaces 模拟器上验证我们的设计选择并在连续音频目标导航基准上展示改进,通过训练仅接受特定频率子带作为输入的声学场预测模型来收集真实世界数据,测量模拟与真实世界之间的频谱差异,进一步提出基于测量频谱差异和接收音频能量分布的频率自适应策略,从而改善在真实数据上的性能,最后,我们构建了一个真实的机器人平台,并展示了转化的策略能够成功导航到具有声音的对象。这项工作展示了在完全从模拟中看、听和行动的智能代理构建的潜力,并将其转移到真实世界。