MMNov, 2022

通过学习离散音素级韵律表示实现可控语音合成

TL;DR本文介绍一种使用直观的离散标签实现音素级 F0 和时长控制的新方法,其使用无监督的韵律聚类过程将音素级 F0 和时长特征离散化为韵律标签的输入序列,该模型不需要参考语音就能合成语音,并具有高质量的语音输出和有效的韵律控制能力。