CVPRJan, 2021

VisualVoice: 跨模态一致性的音视频语音分离

TL;DR提出一种基于面部出现和声音特征对语音进行分离的方法,可对五种基准数据集进行音视频语音分离和增强,而且具有较好的泛化性能。