May, 2024

利用语言模型探索语音风格空间:无情感标签的情感合成

TL;DR设计了一个新颖的两阶段框架 TEMOTTS,用于基于文本的情感语音合成任务,该框架在没有情感标签和文本提示的情况下进行训练,并能够无需辅助输入进行推理。利用 BERT 学习的语言空间和全局风格标记构建的情感风格空间之间进行知识转移,实验证明了该框架的有效性,提高了情感准确性和自然度。这是第一个充分利用口头内容与表现风格之间情感相关性的情感语音合成研究之一。