May, 2020
Multi-band MelGAN:高品质文本转语音的快速波形生成
Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech
Geng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen...
TL;DR本研究提出了一种快速的多波段 MelGAN 模型,通过增加接收域、使用多分辨率 STFT 损失和多波段处理提高声音生成的质量和稳定性。结果表明,该模型在声波生成和 TTS 方面均取得了较高的 MOS 得分。