Oct, 2019
半监督生成建模用于可控语音合成
Semi-Supervised Generative Modeling for Controllable Speech Synthesis
Raza Habib, Soroosh Mariooryad, Matt Shannon, Eric Battenberg, RJ Skerry-Ryan...
TL;DR本文提出一种新颖的生成模型,它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督,我们能够强制它们具有一致和可解释的特征,这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性(例如情感和语速),即使只监督 1%(30 分钟)。在这样低的监督水平下,我们观察不到合成质量与最先进的基线水平相比的下降。