May, 2022

可扩展视频语音合成

TL;DR本文提出了一种可扩展的视频到语音综合框架,利用自我监督学习的方法,通过视频预测频谱图并使用预训练的神经声码器将其转换为语音波形,显着优于以往方法,并在 LRS3 数据集上首次展示令人满意的结果。