ICLRJun, 2020

端到端对抗文本转语音

TL;DR该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法,使用逐字符或逐音素音频输出序列,通过可微分的对齐策略来保证高保真度音频的生成,实现了在不需要多阶段训练和额外监督下,比之前的技术达到了相似的高质量合成音效。