Nov, 2022
通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成
Learning utterance-level representations through token-level acoustic latents prediction for Expressive Speech Synthesis
Karolos Nikitaras, Konstantinos Klapsas, Nikolaos Ellinas, Georgia Maniati, June Sig Sung...
TL;DR本论文提出了一种表达性语音合成模型,该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性,如角色配音和说话风格,其中的潜在细节级别空间同时也捕捉更粗粒度的信息。