EmoSpeech:引领 FastSpeech2 朝向情感文本朗读技术的方向
本论文提出了一种有效的情感控制方法,用于端到端的文本到语音(TTS)系统,使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。
Nov, 2019
Multimodal Emotional Text-to-Speech System (MM-TTS) is proposed, which leverages emotional cues from multiple modalities, addresses the limitations of current approaches in capturing human emotions, and achieves superior performance compared to traditional Emotional Text-to-Speech models.
Apr, 2024
本文旨在为基于文本的语音编辑任务中生成带有情感效果的语音提供一种新方法,我们提出了 Emo-CampNet 模型,它可以根据上下文的情况引入额外的情感属性,以控制所生成语音的情感。此外,我们还提出了数据增强方法和一种去除原始语音情感的中性内容生成器,以丰富模型的训练集并避免情感干扰。实验结果表明 Emo-CampNet 模型可以有效地控制语音情感并编辑无标记说话人的语音。
Dec, 2022
通过使用球形情感向量来控制合成语音的情感风格和强度,提出了 EmoSphere-TTS,该系统实现了表达性的情感语音。通过使用唤起度、愉悦度和支配性伪标签来模拟情感的复杂特性,进而提出了双条件对抗网络来提高生成语音质量,实验结果表明该模型能够高质量地控制情感风格和强度。
Jun, 2024
本篇论文提供了包括 9,724 个样本的情感语音数据集,并提出了一种名为 EMSpeech 的情感语音合成模型,该模型无需参考音频即可从文本预测情感标签并生成更富表现力的语音。在实验中,作者验证了数据集的有效性,证明了该模型在情感语音合成任务中取得了显著性能。
Jun, 2021
通过研究不同的预训练模型、情感文本合成和数据增强方法,本文提出了一种提高语音情感识别效果的方法,实验结果表明该方法在 IEMOCAP 数据集上具有较高的效果。
Sep, 2023
我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统,通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练,并在每次训练迭代中变化提示信息,以增加模型的泛化能力。客观和主观评估结果表明,该条件合成系统能够准确地将提示中的情感转移到语音中。同时,保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。
Jun, 2024
设计了一个新颖的两阶段框架 TEMOTTS,用于基于文本的情感语音合成任务,该框架在没有情感标签和文本提示的情况下进行训练,并能够无需辅助输入进行推理。利用 BERT 学习的语言空间和全局风格标记构建的情感风格空间之间进行知识转移,实验证明了该框架的有效性,提高了情感准确性和自然度。这是第一个充分利用口头内容与表现风格之间情感相关性的情感语音合成研究之一。
May, 2024
在这篇论文中,我们提出了一种基于结构模型的情感文本转语音设计,旨在模拟更广泛的情感谱系。我们的设计 Daisy-TTS 中加入了韵律编码器,以学习具有情感可分离性的韵律嵌入作为情感的代理。通过一系列的感知评估,与基准相比,Daisy-TTS 展示了更高的情感语音自然度和情感可感知性。
Feb, 2024