May, 2020

Flowtron: 基于流的自回归生成网络用于文本转语音合成

TL;DR本文提出了一种自回归基于流的生成网络 Flowtron,用于对语音的合成,并提供了控制语音变化和风格转移的功能。Flowtron 通过最大化训练数据的可能性进行优化,学习将数据映射到一个潜在空间,可以操纵语音合成的许多方面。与现有模型进行比较得出,Flowtron 在语音质量上与最先进的 TTS 模型相匹配。