Nov, 2022

使用 AR 和基于流的先验网络预测音素级韵律潜变量用于表现力语音合成

TL;DR本文比较了不同架构(prior architectures)在预测从 FVAE 模型中提取的音素级韵律表示方面的表现,并使用主观和客观指标证明了基于正规化流的先验网络可以在表现力方面产生更加生动的语音,并提出了一个动态 VAE 模型与基于流的模型相比,尽管在表现力和变异性上有所减少,但可以产生更高质量的语音。