AAAIFeb, 2022

通过交叉模态干扰抹除实境中的视听定位

TL;DR本文提出了 Interference Eraser(IEr)框架,用于处理复杂的真实场景中的音频 - 视觉声源定位问题。通过增强音频表示和采用跨模态引用模块的跨模态蒸馏,消除混杂声音和噪音对音频 - 视觉连接的干扰,在定量和定性评估中,我们的框架取得了在声音定位任务上卓越的结果。