Oct, 2018

WaveGlow:基于流的生成网络用于语音合成

TL;DR本文提出了 WaveGlow,这是一种基于流的网络,能够从 mel - 频谱生成高质量的语音,它基于 Glow 和 WaveNet 的理解,提供了快速、高效和高质量的音频合成,无需自回归,并使用单一的成本函数进行训练。我们的 PyTorch 实现在 NVIDIA V100 GPU 上以超过 500 千赫的速率产生音频样本,并具有与最佳公开可用的 WaveNet 实现一样好的音质,所有代码都将在网上公开发布。