情感演讲合成与丰富的精细控制

Nov, 2019

Emotional speech synthesis with rich and granularized control

Se-Yun Um, Sangshin Oh, Kyungguen Byun, Inseon Jang, Chunghyun Ahn...

TL;DR本论文提出了一种有效的情感控制方法，用于端到端的文本到语音（TTS）系统，使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。

Abstract

This paper proposes an effective emotion control method for an end-to-end text-to-speech (TTS) system. To flexibly control the distinct characteristic of a target emotion category, it is essential to determine

text-to-speech emotion control embedding vectors interpolation technique subjective evaluation

发现论文，激发创造

文本转语音的细粒度情感控制：学习排名类内和类间情感强度

本文提出了一种精细可控的情感语音生成模型，考虑到类间和类内距离，能够产生有较大情感区别的自然语音，实验证明该模型的可控性、情感表现力和自然度均优于两种现有的同类模型。

Mar, 2023

神经 TTS 中的文本驱动情感风格控制与跨说话人风格转移

该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法，利用双模态风格编码器以及新的风格损失函数，实现高质量的表达性语音合成。

Jul, 2022

情感语音合成的细粒度情感强度传输、控制和预测

本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型，通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节，并采用句子级情感类别来呈现合成语音的全局情感。

Nov, 2020

可控的情感转移用于端到端语音合成

提出了一种基于 Tacotron 的新方法，通过引入情感分类器和样式损失，增强情感嵌入的区分能力，并通过控制情感嵌入的值，控制合成语音中的情感强度。实验结果表明，该方法合成的语音具有更高的准确性和表现力，并且情感强度的控制更加显著。

Nov, 2020

EmoSphere-TTS: 通过球形情感向量实现情感风格与强度建模的可控情感文本到语音技术

通过使用球形情感向量来控制合成语音的情感风格和强度，提出了 EmoSphere-TTS，该系统实现了表达性的情感语音。通过使用唤起度、愉悦度和支配性伪标签来模拟情感的复杂特性，进而提出了双条件对抗网络来提高生成语音质量，实验结果表明该模型能够高质量地控制情感风格和强度。

Jun, 2024

混合情感语音合成

本研究提出一种新的情感文本转语音框架，通过量化不同情绪之间的差异，训练模型并控制模型在运行时生成所需的情感混合，实现了语音情感合成研究中的情感混合模拟。

Aug, 2022

利用自然语言提示控制语音合成中的情感

我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统，通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练，并在每次训练迭代中变化提示信息，以增加模型的泛化能力。客观和主观评估结果表明，该条件合成系统能够准确地将提示中的情感转移到语音中。同时，保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。

Jun, 2024

情感语音转换的情感强度及其控制

本文提出了一种基于情感标签库的情感语音转换网络，可以控制输出语音的细粒度情感强度和情感表达能力，并将说话人风格从语言内容中解耦，并用连续的空间中的样式嵌入来编码说话人风格。

Jan, 2022

通过操作语音风格潜在因素进行跨说话人情感转移

本文提出一种基于潜在风格空间中的矢量算术方法的跨说话人情感转移和操纵研究，可以使用仅有的几个标记样本从阅读风格语音生成情感语音，并且情感强度可以轻松控制，保留了说话人的身份。实验结果表明这种方法在表达性、自然度和可控性方面具有优越性。

Mar, 2023

利用跨领域语音情感识别协助，使用无标记情感数据集进行情感可控语音合成

本文提出了一种新颖的情感文本转语音合成方法，通过跨域语音情感识别模型和情感文本转语音模型进行联合训练，从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音，并且几乎不影响其语音质量。

Oct, 2020