Jan, 2022

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

TL;DR本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS),该模型通过多说话人 TTS 实验表明,仅需 4 个去噪步骤即可生成高保真度语音样本,并提出了一个两阶段训练方案,可在仅 1 个去噪步骤下实现高质量的语音合成性能。