Apr, 2021

利用自监督运动表示进行视觉引导的声源分离和定位

TL;DR本文提出了一种基于视音频的声源分离方法,其中包括二阶段的体系结构,用于外观和动作特征提取,并引入了音频 - 运动嵌入框架,以明确表示与声音相关的动态物体,该方法无需预训练关键点检测器或光流测量仪,在两个比较具有挑战性的数据集上取得了最先进的性能表现。