ICMLJun, 2021

带有对抗学习的条件变分自编码器用于端到端的文本转语音

TL;DR本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统,并能达到类似于真实语音自然度的效果。