Sep, 2020

利用直觉的韵律特征进行可控的神经文本转语音合成

TL;DR通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。