Nov, 2022

通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

TL;DR本论文提出了一种表达性语音合成模型,该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性,如角色配音和说话风格,其中的潜在细节级别空间同时也捕捉更粗粒度的信息。