Dec, 2018

端到端语音合成中学习风格控制与转移的潜在表示

TL;DR本文介绍了利用变分自编码器(VAE)来实现语音合成模型的端到端学习,以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性,使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示,然后将其馈入 TTS 网络来引导语音合成中的风格,可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃,采用了多种技术。最后,所提出的模型在风格控制上表现良好,并在风格转移的 ABX 偏好测试中优于全局风格令牌(GST)模型。