May, 2020

Multi-band MelGAN:高品质文本转语音的快速波形生成

TL;DR本研究提出了一种快速的多波段 MelGAN 模型,通过增加接收域、使用多分辨率 STFT 损失和多波段处理提高声音生成的质量和稳定性。结果表明,该模型在声波生成和 TTS 方面均取得了较高的 MOS 得分。