EmoSpeech：引领 FastSpeech2 朝向情感文本朗读技术的方向

Jun, 2023

EmoSpeech：引领 FastSpeech2 朝向情感文本朗读技术的方向

EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech

Daria Diatlova, Vitaly Shutov

TL;DR本文探讨了在 FastSpeech2 的基础上如何通过更改结构实现情感语音的合成，并且在自动和人体评估中，创造了 EmoSpeech 模型，该模型的 MOS 得分和情感识别准确性均超过了现有模型。

Abstract

State-of-the-art speech synthesis models try to get as close as possible to the human voice. Hence, modelling emotions is an essential part of Text-To-Speech (tts) research. In our work, we selected →

speech synthesis tts emotion recognition modeling emotions fastspeech2

发现论文，激发创造

混合情感语音合成

本研究提出一种新的情感文本转语音框架，通过量化不同情绪之间的差异，训练模型并控制模型在运行时生成所需的情感混合，实现了语音情感合成研究中的情感混合模拟。

Aug, 2022

情感演讲合成与丰富的精细控制

本论文提出了一种有效的情感控制方法，用于端到端的文本到语音（TTS）系统，使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。

Nov, 2019

MM-TTS: 多模态、情绪感应文本转语音综合的统一框架

Multimodal Emotional Text-to-Speech System (MM-TTS) is proposed, which leverages emotional cues from multiple modalities, addresses the limitations of current approaches in capturing human emotions, and achieves superior performance compared to traditional Emotional Text-to-Speech models.

Apr, 2024

情感可选的端到端基于文本的语音编辑

本文旨在为基于文本的语音编辑任务中生成带有情感效果的语音提供一种新方法，我们提出了 Emo-CampNet 模型，它可以根据上下文的情况引入额外的情感属性，以控制所生成语音的情感。此外，我们还提出了数据增强方法和一种去除原始语音情感的中性内容生成器，以丰富模型的训练集并避免情感干扰。实验结果表明 Emo-CampNet 模型可以有效地控制语音情感并编辑无标记说话人的语音。

Dec, 2022

EmoSphere-TTS: 通过球形情感向量实现情感风格与强度建模的可控情感文本到语音技术

通过使用球形情感向量来控制合成语音的情感风格和强度，提出了 EmoSphere-TTS，该系统实现了表达性的情感语音。通过使用唤起度、愉悦度和支配性伪标签来模拟情感的复杂特性，进而提出了双条件对抗网络来提高生成语音质量，实验结果表明该模型能够高质量地控制情感风格和强度。

Jun, 2024

EMOVIE：一种普通话情感语音数据集及其简单情感文本转语音模型

本篇论文提供了包括 9,724 个样本的情感语音数据集，并提出了一种名为 EMSpeech 的情感语音合成模型，该模型无需参考音频即可从文本预测情感标签并生成更富表现力的语音。在实验中，作者验证了数据集的有效性，证明了该模型在情感语音合成任务中取得了显著性能。

Jun, 2021

利用语音 PTM、文本 LLM 和情感 TTS 进行语音情感识别

通过研究不同的预训练模型、情感文本合成和数据增强方法，本文提出了一种提高语音情感识别效果的方法，实验结果表明该方法在 IEMOCAP 数据集上具有较高的效果。

Sep, 2023

利用自然语言提示控制语音合成中的情感

我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统，通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练，并在每次训练迭代中变化提示信息，以增加模型的泛化能力。客观和主观评估结果表明，该条件合成系统能够准确地将提示中的情感转移到语音中。同时，保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。

Jun, 2024

利用语言模型探索语音风格空间：无情感标签的情感合成

设计了一个新颖的两阶段框架 TEMOTTS，用于基于文本的情感语音合成任务，该框架在没有情感标签和文本提示的情况下进行训练，并能够无需辅助输入进行推理。利用 BERT 学习的语言空间和全局风格标记构建的情感风格空间之间进行知识转移，实验证明了该框架的有效性，提高了情感准确性和自然度。这是第一个充分利用口头内容与表现风格之间情感相关性的情感语音合成研究之一。

May, 2024

Daisy-TTS: 通过韵律嵌入分解模拟更广泛情感频谱

在这篇论文中，我们提出了一种基于结构模型的情感文本转语音设计，旨在模拟更广泛的情感谱系。我们的设计 Daisy-TTS 中加入了韵律编码器，以学习具有情感可分离性的韵律嵌入作为情感的代理。通过一系列的感知评估，与基准相比，Daisy-TTS 展示了更高的情感语音自然度和情感可感知性。

Feb, 2024