Oct, 2019

Parallel WaveGAN:基于多分辨率频谱图的生成对抗网络快速波形生成模型

TL;DR本文提出了一种新型的声波生成方法,名为 Parallel WaveGAN,采用生成对抗网络作为模型,通过优化多分辨率的频谱图和对抗损失函数来训练非自回归 WaveNet,可以很好地捕捉现实语音信号的时频分布,在不需要常规师生框架中的密度蒸馏的情况下,整个模型容易训练且生成的语音高保真,适用于 Transformer-based 文本转语音框架 且与最佳的基于蒸馏的 Parallel WaveNet 系统相媲美。