We propose a novel training algorithm for a multi-speaker neural
text-to-speech (TTS) model based on multi-task adversarial training. A
conventional generative adversarial network (gan)-based training algorithm
s
本文介绍了一种使用生成对抗网络(GAN)的统计参数语音合成方法,相比于传统的最小生成误差训练算法,该方法能够更自然地生成语音波形,并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异,并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。