Feb, 2022

VCVTS:通过语音转换跨模态知识转移进行多说话人视频到语音合成

TL;DR本篇论文提出了一种基于跨模态知识转移的多说话人视频朗读合成系统,利用向量量化及对比预测编码来导出获得离散类音素的声学单元,利用 Lip-to-Index 网络推断声学单元的索引序列,并利用说话人编码器来产生说话人表示,以有效地控制生成语音的说话人身份。经过广泛的评估验证,该方法在生成具有高自然度、易懂度和说话人相似度的高质量语音方面具有最先进的性能。