Mar, 2018

Style Tokens:端到端语音合成中的无监督风格建模、控制和转移

TL;DR本文提出了 “全局风格标记”(GST),即在 Tacotron 中共同训练的嵌入库,用于无标签的声学建模,可用于控制合成音频的速度、讲话风格和样式转换,从而提高生成长篇文本的效率和鲁棒性。