ICLROct, 2018

层次式生成模型用于可控语音合成

TL;DR该研究提出了一种神经序列到序列的文本转语音模型,基于变分自动编码器(VAE)框架,通过两级分层潜变量,实现对生成语音中很少被训练数据标记的潜在属性的控制,包括口音、语速、噪声等,其中第一级为类别变量,第二级为多元高斯变量,通过高斯混合模型 (GMM) 实现。经广泛评估,该模型展现出控制这些潜在属性的能力。