ICCVSep, 2021
视觉场景图用于音频源分离
Visual Scene Graphs for Audio Source Separation
Moitreya Chatterjee, Jonathan Le Roux, Narendra Ahuja, Anoop Cherian
TL;DR本文提出了一种基于 Audio Visual Scene Graph Segmenter (AVSGS) 的深度学习模型,通过嵌入场景的视觉结构,并将其分割为子图,实现音频源分离;同时,介绍了一个全新的数据集 Audio Separation in the Wild (ASIW),证明了该方法在音源分离方面的卓越表现。