关键词audio-visual navigation
搜索结果 - 8
- 音频 - 视觉导航的模拟到现实迁移和频率自适应声场预测
在学习机器人任务与模拟端到端成功的基础上,视觉导航策略的转换取得了很大进展,然而,现有的声音 - 视觉导航的模拟到真实转换策略在进行数据增强时往往是经验性的,而没有对声学差异进行测量。本文提出了首个声音 - 视觉导航的模拟到真实处理方法,将 - ICCV基于知识转移的全向信息获取的音视频导航
基于交叉任务导航技能迁移的全向音频视觉导航器 ORAN,通过信心感知的交叉任务策略提炼(CCPD)和全向信息收集(OIG)的机制,显著超越以往的竞争对手,提高了音空间挑战 2022 年的 SPL 和 SR 等指标。
- 多目标音频视觉导航使用声音定向图
我们提出了一个新的框架,用于多目标音视频导航任务,并研究了这个任务相对于当前导航任务的困难性。我们采用一种名为声音方向图(SDM)的方法来缓解这个新任务的困难,该方法在学习的基础上动态地定位多个声音源。实验结果表明,无论目标数量如何,使用 - 自我注意力视听导航
本文提出了一种叫做 FSAAVN 的端到端框架,通过自我关注模块,实现了上下文感知的视听融合策略,学习追逐一个移动的音频目标。实验证明,与现有技术相比,FSAAVN 在视觉模态、视听编码器和融合模式的选择方面表现出更高的优越性。
- CVPR面向音频 - 视觉导航的泛化音频表示
该研究提出使用对比学习方法对音频编码器进行正则化以实现模型良好的扩展性,同时使用两种数据增强策略来增加训练声音,从而获得了 13.4% 在 Replica 和 12.2% 在 MP3D 的 SPL 性能增益。
- 在移动声音的复杂未被地图化的环境中进行音频 - 视觉导航
本文提出了动态视听导航基准,介绍了融合空间特征的视听信息的体系结构,并通过强化学习方法学习了复杂环境下的稳健导航策略,研究表明,该方法在捕捉移动声源、未知声源和嘈杂环境方面具有显著的性能优势。
- ICLR学习为视听导航设置路径点
本文介绍了一种基于强化学习的音视觉导航方法,通过动态设置和学习的航点和声音记忆,利用视觉和声音数据揭示了未映射空间的几何结构,实验结果表明,学习视听空间之间的联系对于音视觉导航至关重要。
- ECCV声音空间: 3D 环境下的音视导航
本研究介绍了一种复杂的,声音和视觉逼真的三维环境中的音频视觉导航方法,使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces,在现实环境中插入任意声源。研究结果表明,在三维空间中,音频对于具身视觉导航有很大的帮助,