Jan, 2024

DurFlex-EVC: 持续可变情感语音转换并行生成

TL;DR本研究介绍了一种基于序列到序列模型的 Duration-Flexible 情感语音转换方法 (DurFlex-EVC),通过引入样式自编码器和单位对齐器,实现了同时建模音高和持续时间的并行语音生成,提高了转换的可靠性和效率,并通过跨注意机制使得包含语言和语外信息的自监督学习表示与各种情感进行同步,进一步通过样式自编码器对样式元素进行解耦和操作,经过主客观评估证明了该方法相较于现有模型在领域内的优越性。