Jun, 2023

大规模无监督音频预训练用于视频到语音合成

TL;DR该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型,用已经预训练好的解码器初始化视频到语音合成任务的音频解码器,从而改进生成器的质量和重构的语音质量。