Oct, 2022

学习紧凑的语音表示以实现低资源语言的高质量神经语音合成

TL;DR本文提出了一种用于提高低资源的 TTS 系统性能的方法,其利用紧凑的语音表示并利用 Multi-Stage Multi-Codebook (MSMC) VQ-GAN 学习 MSMCR 表示并解码成波形,并使用多阶段预测器从文本中预测 MSMCRs 进行 TTS 合成,并通过优化训练策略,利用训练集增强了微型语言环境下的训练质量,并在 MOS 测试中显示出优异的性能。