IJCAIApr, 2022

FastDiff:一种快速的有条件扩散模型,用于高质量语音合成

TL;DRFastDiff 是一种快速条件扩散模型,通过应用时间感知的位置可变卷积和噪声预测器,实现了高质量语音合成,并在端到端文本到语音合成中实现了高保真度的语音波形生成,速度快达 58 倍。