May, 2020

FaceFilter: 通过静态图像进行音视频语音分离

TL;DR使用深度学习中的音频 - 视觉语音分离网络,从混音状态中分离出指定说话者的语音,且仅使用目标说话者的单一面部图像,通过潜在空间的交叉模态生物识别任务中的面部外观获得条件特征,可隔离和提取这些说话者的语音,为语音分离任务中的通道交换问题提供解决方案,同时也适用于未知说话者。