EmoDiff：带软标签引导的可控强度情感语音合成

Nov, 2022

EmoDiff：带软标签引导的可控强度情感语音合成

EmoDiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance

Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu

TL;DR本文提出 EmoDiff 模型，采用分类器指导的软标签技术来控制情感强度，从而能够在维持高质量的同时精确控制情感强度，并能够生成出具有特定情感强度的多样化语音。

Abstract

Although current neural text-to-speech (TTS) models are able to generate high-quality speech, intensity controllable emotional TTS is still a challenging task. Most existing methods need external optimizations for intensity calculation, leading to suboptimal results or degraded quality

neural text-to-speech emodiff emotion intensity soft-label guidance voice quality

发现论文，激发创造

文本转语音的细粒度情感控制：学习排名类内和类间情感强度

本文提出了一种精细可控的情感语音生成模型，考虑到类间和类内距离，能够产生有较大情感区别的自然语音，实验证明该模型的可控性、情感表现力和自然度均优于两种现有的同类模型。

Mar, 2023

EmoSphere-TTS: 通过球形情感向量实现情感风格与强度建模的可控情感文本到语音技术

通过使用球形情感向量来控制合成语音的情感风格和强度，提出了 EmoSphere-TTS，该系统实现了表达性的情感语音。通过使用唤起度、愉悦度和支配性伪标签来模拟情感的复杂特性，进而提出了双条件对抗网络来提高生成语音质量，实验结果表明该模型能够高质量地控制情感风格和强度。

Jun, 2024

情感演讲合成与丰富的精细控制

本论文提出了一种有效的情感控制方法，用于端到端的文本到语音（TTS）系统，使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。

Nov, 2019

EmoTalker: 通过扩散模型生成情感可编辑的说话脸部

提出了基于扩散模型的 EmoTalker 方法，该方法能够在生成高质量的、可定制的面部表情时，保留原始肖像的身份特征，通过引入 Emotion Intensity Block 对来自提示的细粒度情绪进行分析和提取，从而增强了对文本输入的情感理解。

Jan, 2024

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

May, 2023

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

EmoSpeech：引领 FastSpeech2 朝向情感文本朗读技术的方向

本文探讨了在 FastSpeech2 的基础上如何通过更改结构实现情感语音的合成，并且在自动和人体评估中，创造了 EmoSpeech 模型，该模型的 MOS 得分和情感识别准确性均超过了现有模型。

Jun, 2023

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

利用跨领域语音情感识别协助，使用无标记情感数据集进行情感可控语音合成

本文提出了一种新颖的情感文本转语音合成方法，通过跨域语音情感识别模型和情感文本转语音模型进行联合训练，从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音，并且几乎不影响其语音质量。

Oct, 2020

情感语音合成的细粒度情感强度传输、控制和预测

本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型，通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节，并采用句子级情感类别来呈现合成语音的全局情感。

Nov, 2020