MMNov, 2022
通过学习离散音素级韵律表示实现可控语音合成
Controllable speech synthesis by learning discrete phoneme-level prosodic representations
Nikolaos Ellinas, Myrsini Christidou, Alexandra Vioni, June Sig Sung, Aimilios Chalamandaris...
TL;DR本文介绍一种使用直观的离散标签实现音素级 F0 和时长控制的新方法,其使用无监督的韵律聚类过程将音素级 F0 和时长特征离散化为韵律标签的输入序列,该模型不需要参考语音就能合成语音,并具有高质量的语音输出和有效的韵律控制能力。