CVPRMar, 2023

用于混音声源定位的音视频分组网络

TL;DR本文提出了一种 AVGN 网络,通过可学习的音频 - 视觉类别权重直接学习每个音频源的语义特征,可以同时定位多个音频源,达到了先进的音响目标定位效果。