ICLRNov, 2020
使用 AudioScope 探索野外:屏幕上声音的无监督音频 - 视觉分离
Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of On-Screen Sounds
Efthymios Tzinis, Scott Wisdom, Aren Jansen, Shawn Hershey, Tal Remez...
TL;DR本研究提出了一种名为 AudioScope 的音频 - 视觉分离框架,在无监督培训下从自然视频中分离屏幕上的声源。使用混合不变训练(MixIT)对混合物进行训练并在电影与音频特征之间调用注意力来识别音频 - 视觉相似性并抑制屏幕外声音。