Feb, 2020

使用跨模态自监督进行解缠语音嵌入

TL;DR本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。