Jul, 2018

使用 WaveNet 声码器的多说话者文本转语音合成系统的 Wasserstein GAN 和基于波形损失的训练方法

TL;DR提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架,并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中,实验结果表明,使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型,评估得分最高,同时具有最佳的质量和说话人相似度。