Jun, 2023

使用线性扩散增强快速高质量语音合成

TL;DR本文提出了一种基于普通微分方程的线性扩散模型(LinDiff),其旨在实现快速推理和高采样质量,并通过基于补丁的处理方法来减少计算复杂性和实现嘈杂语音的有效全局建模,并使用对抗性训练进一步改善样本质量,并在 Mel - 声谱图上条件语音合成中进行测试,实验结果表明,即使只有一个扩散步骤,该模型也可以合成高质量的语音,而且在更快的合成速度下合成质量与自回归模型相媲美。