混合情感语音合成
本论文提出了一种有效的情感控制方法,用于端到端的文本到语音(TTS)系统,使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。
Nov, 2019
本文探讨了在 FastSpeech2 的基础上如何通过更改结构实现情感语音的合成,并且在自动和人体评估中, 创造了 EmoSpeech 模型,该模型的 MOS 得分和情感识别准确性均超过了现有模型。
Jun, 2023
该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法,利用双模态风格编码器以及新的风格损失函数,实现高质量的表达性语音合成。
Jul, 2022
Multimodal Emotional Text-to-Speech System (MM-TTS) is proposed, which leverages emotional cues from multiple modalities, addresses the limitations of current approaches in capturing human emotions, and achieves superior performance compared to traditional Emotional Text-to-Speech models.
Apr, 2024
本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型,通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节,并采用句子级情感类别来呈现合成语音的全局情感。
Nov, 2020
本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech,旨在实现对任何说话者情感语音的合成,采用了域对抗学习和扩散模型的引导方法,实验结果表明,ZET-Speech 成功地合成了所需情感的自然和情感语音,适用于已知和未知说话者。
May, 2023
本文提出了一种新颖的情感文本转语音合成方法,通过跨域语音情感识别模型和情感文本转语音模型进行联合训练,从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音,并且几乎不影响其语音质量。
Oct, 2020
通过使用球形情感向量来控制合成语音的情感风格和强度,提出了 EmoSphere-TTS,该系统实现了表达性的情感语音。通过使用唤起度、愉悦度和支配性伪标签来模拟情感的复杂特性,进而提出了双条件对抗网络来提高生成语音质量,实验结果表明该模型能够高质量地控制情感风格和强度。
Jun, 2024
本文提出了一种通过视角损失来改进的多模态语音情感识别模型,通过融合音频和文本信息来提高多模态任务的性能表现,在 IEMOCAP 数据集上获得了最新的最佳表现。
Apr, 2023
我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统,通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练,并在每次训练迭代中变化提示信息,以增加模型的泛化能力。客观和主观评估结果表明,该条件合成系统能够准确地将提示中的情感转移到语音中。同时,保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。
Jun, 2024