Jun, 2024

EmoSphere-TTS: 通过球形情感向量实现情感风格与强度建模的可控情感文本到语音技术

TL;DR通过使用球形情感向量来控制合成语音的情感风格和强度,提出了 EmoSphere-TTS,该系统实现了表达性的情感语音。通过使用唤起度、愉悦度和支配性伪标签来模拟情感的复杂特性,进而提出了双条件对抗网络来提高生成语音质量,实验结果表明该模型能够高质量地控制情感风格和强度。