CVPRJun, 2022
面向音频 - 视觉导航的泛化音频表示
Towards Generalisable Audio Representations for Audio-Visual Navigation
Shunqi Mao, Chaoyi Zhang, Heng Wang, Weidong Cai
TL;DR该研究提出使用对比学习方法对音频编码器进行正则化以实现模型良好的扩展性,同时使用两种数据增强策略来增加训练声音,从而获得了 13.4% 在 Replica 和 12.2% 在 MP3D 的 SPL 性能增益。