ACLMay, 2022

跨语句有条件变分自编码器用于非自回归式文本到语音

TL;DR本文提出了一种跨话语 CUC-VAE 模型来估计每个音素的潜在韵律特征的后验概率分布,该模型结合语音,说话人信息和文本特征,并允许与上下文相关的生成韵律特征,实验结果表明此模型可以显著提高其自然度和韵律分布。