情感演讲合成与丰富的精细控制
本文提出了一种精细可控的情感语音生成模型,考虑到类间和类内距离,能够产生有较大情感区别的自然语音,实验证明该模型的可控性、情感表现力和自然度均优于两种现有的同类模型。
Mar, 2023
该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法,利用双模态风格编码器以及新的风格损失函数,实现高质量的表达性语音合成。
Jul, 2022
本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型,通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节,并采用句子级情感类别来呈现合成语音的全局情感。
Nov, 2020
提出了一种基于 Tacotron 的新方法,通过引入情感分类器和样式损失,增强情感嵌入的区分能力,并通过控制情感嵌入的值,控制合成语音中的情感强度。实验结果表明,该方法合成的语音具有更高的准确性和表现力,并且情感强度的控制更加显著。
Nov, 2020
通过使用球形情感向量来控制合成语音的情感风格和强度,提出了 EmoSphere-TTS,该系统实现了表达性的情感语音。通过使用唤起度、愉悦度和支配性伪标签来模拟情感的复杂特性,进而提出了双条件对抗网络来提高生成语音质量,实验结果表明该模型能够高质量地控制情感风格和强度。
Jun, 2024
我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统,通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练,并在每次训练迭代中变化提示信息,以增加模型的泛化能力。客观和主观评估结果表明,该条件合成系统能够准确地将提示中的情感转移到语音中。同时,保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。
Jun, 2024
本文提出了一种基于情感标签库的情感语音转换网络,可以控制输出语音的细粒度情感强度和情感表达能力,并将说话人风格从语言内容中解耦,并用连续的空间中的样式嵌入来编码说话人风格。
Jan, 2022
本文提出一种基于潜在风格空间中的矢量算术方法的跨说话人情感转移和操纵研究,可以使用仅有的几个标记样本从阅读风格语音生成情感语音,并且情感强度可以轻松控制,保留了说话人的身份。实验结果表明这种方法在表达性、自然度和可控性方面具有优越性。
Mar, 2023
本文提出了一种新颖的情感文本转语音合成方法,通过跨域语音情感识别模型和情感文本转语音模型进行联合训练,从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音,并且几乎不影响其语音质量。
Oct, 2020