May, 2023

使用语音单元的可懂嘴唇合成

TL;DR本文提出了一种新型 Lip-to-Speech 合成(L2S)框架,采用量化的自监督语音表示作为 L2S 模型的另一个预测目标,从而实现了强内容监督的多目标 L2S 模型训练,并介绍了一种多输入声码器用于准确地将合成的梅尔频谱转换为波形,并经过实验证实了该方法在 L2S 领域的有效性。