ECCVApr, 2018

通过观察未标记的视频学习分离物体声音

TL;DR通过使用深度多实例多标签学习框架来解耦音频频率按照每个视觉对象映射到个人视觉对象,即使没有独立观察 / 听到这些对象,从而学习从未标记的视频中的音频可分离对象模型,然后利用视觉背景在新视频中执行音频源分离。