ICLRNov, 2020

使用 AudioScope 探索野外:屏幕上声音的无监督音频 - 视觉分离

TL;DR本研究提出了一种名为 AudioScope 的音频 - 视觉分离框架,在无监督培训下从自然视频中分离屏幕上的声源。使用混合不变训练(MixIT)对混合物进行训练并在电影与音频特征之间调用注意力来识别音频 - 视觉相似性并抑制屏幕外声音。