AAAIFeb, 2022
通过交叉模态干扰抹除实境中的视听定位
Visual Sound Localization in the Wild by Cross-Modal Interference Erasing
Xian Liu, Rui Qian, Hang Zhou, Di Hu, Weiyao Lin...
TL;DR本文提出了 Interference Eraser(IEr)框架,用于处理复杂的真实场景中的音频 - 视觉声源定位问题。通过增强音频表示和采用跨模态引用模块的跨模态蒸馏,消除混杂声音和噪音对音频 - 视觉连接的干扰,在定量和定性评估中,我们的框架取得了在声音定位任务上卓越的结果。