Feb, 2022

基于语义相似样本更好地学习声音定位

TL;DR本文的目标是在视觉场景中定位声源。我们的研究发现,之前的视听学习将语义匹配的音视频信息错误地分为负例,我们的方法直接将这些 “硬正例” 与响应图纳入对比学习目标,证明在 VGG-SS 和 SoundNet-Flickr 测试集上表现优异。