CVPRMar, 2022

自监督预测学习:一种无需负样本的视觉场景声源定位方法

TL;DR本文提出了自监督预测学习 (SSPL) 方法,通过显式正样本挖掘以实现声音定位,将声音来源与视频帧的两个增强视图相结合,并引入了预测编码模块以帮助 SSPL 逐步聚焦目标对象和有效降低正向对难度。实验结果表明,SSPL 在两个标准的声音定位基准测试中优于现有最佳方法,在 SoundNet-Flickr 上将 cIoU 和 AUC 分别提高了 8.6%和 3.4%。