Aug, 2018

从文本预测端到端语音合成中的表现性语音风格

TL;DR本文介绍了一种名为 “Text-Predicted Global Style Token” 的结构,能够使用 GST 技术,仅通过文本预测生成带有语音样式的合成语音,无需显式标签或辅助输入,并证明其能生成比两种基线模型更多具有音高和能量变化的音频,并且能够成功地分离说话者身份和语音风格。