Jul, 2022

ProDiff:高质量语音合成的渐进式快速扩散模型

TL;DR本文提出了一种名为 ProDiff 的文本到语音模型,它利用渐进式快速扩散模型直接预测干净数据来减少扰动模型迭代次数,从而提高高质量的音频语音合成速度。使用基于 GPU 硬件的 ProDiff 模型可以实现 24 倍于实时速度的语音合成,相对于其他使用数百步骤的模型,它只需要进行 2 次模型迭代就能合成高保真和多样化的语音合成样本.