Jan, 2022
DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音
DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs
Songxiang Liu, Dan Su, Dong Yu
TL;DR本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS),该模型通过多说话人 TTS 实验表明,仅需 4 个去噪步骤即可生成高保真度语音样本,并提出了一个两阶段训练方案,可在仅 1 个去噪步骤下实现高质量的语音合成性能。