May, 2020
Flowtron: 基于流的自回归生成网络用于文本转语音合成
Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis
Rafael Valle, Kevin Shih, Ryan Prenger, Bryan Catanzaro
TL;DR本文提出了一种自回归基于流的生成网络 Flowtron,用于对语音的合成,并提供了控制语音变化和风格转移的功能。Flowtron 通过最大化训练数据的可能性进行优化,学习将数据映射到一个潜在空间,可以操纵语音合成的许多方面。与现有模型进行比较得出,Flowtron 在语音质量上与最先进的 TTS 模型相匹配。