Mar, 2018
Style Tokens:端到端语音合成中的无监督风格建模、控制和转移
Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
Yuxuan Wang, Daisy Stanton, Yu Zhang, RJ Skerry-Ryan, Eric Battenberg...
TL;DR本文提出了 “全局风格标记”(GST),即在 Tacotron 中共同训练的嵌入库,用于无标签的声学建模,可用于控制合成音频的速度、讲话风格和样式转换,从而提高生成长篇文本的效率和鲁棒性。