Daisy-TTS: 通过韵律嵌入分解模拟更广泛情感频谱

Feb, 2024

Daisy-TTS: 通过韵律嵌入分解模拟更广泛情感频谱

Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition

Rendi Chevi, Alham Fikri Aji

TL;DR在这篇论文中，我们提出了一种基于结构模型的情感文本转语音设计，旨在模拟更广泛的情感谱系。我们的设计 Daisy-TTS 中加入了韵律编码器，以学习具有情感可分离性的韵律嵌入作为情感的代理。通过一系列的感知评估，与基准相比，Daisy-TTS 展示了更高的情感语音自然度和情感可感知性。

Abstract

We often verbally express emotions in a multifaceted manner, they may vary in their intensities and may be expressed not just as a single but as a mixture of emotions. This wide spectrum of emotions is well-studied in the structural model of emotions, which represents variety of emotions as derivative products of primary emotions with varying degrees of inte

emotional text-to-speech structural model of emotions daisy-tts emotions simulation perceptual evaluations

发现论文，激发创造

情感演讲合成与丰富的精细控制

本论文提出了一种有效的情感控制方法，用于端到端的文本到语音（TTS）系统，使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。

Nov, 2019

混合情感语音合成

本研究提出一种新的情感文本转语音框架，通过量化不同情绪之间的差异，训练模型并控制模型在运行时生成所需的情感混合，实现了语音情感合成研究中的情感混合模拟。

Aug, 2022

情感感知的韵律短语化对表达性文本转语音

为了提高端到端文本转语音（TTS）的自然程度和可理解性，本文提出了一种情感感知的韵律短语模型（EmoPP），准确挖掘话语的情感线索并预测适当的短语断点，并通过客观和主观评估证明 EmoPP 在情感表达能力方面优于所有基线模型，取得了显著的性能。音频样本和代码可在 https://github.com/AI-S2-Lab/EmoPP 获取。

Sep, 2023

EmoSpeech：引领 FastSpeech2 朝向情感文本朗读技术的方向

本文探讨了在 FastSpeech2 的基础上如何通过更改结构实现情感语音的合成，并且在自动和人体评估中，创造了 EmoSpeech 模型，该模型的 MOS 得分和情感识别准确性均超过了现有模型。

Jun, 2023

EmoSphere-TTS: 通过球形情感向量实现情感风格与强度建模的可控情感文本到语音技术

通过使用球形情感向量来控制合成语音的情感风格和强度，提出了 EmoSphere-TTS，该系统实现了表达性的情感语音。通过使用唤起度、愉悦度和支配性伪标签来模拟情感的复杂特性，进而提出了双条件对抗网络来提高生成语音质量，实验结果表明该模型能够高质量地控制情感风格和强度。

Jun, 2024

学习多语种表达性语音表示以进行无平行数据的韵律预测

本文提出一种语音到语音的情感保留翻译方法，利用多语言情感嵌入技术来捕捉情感信息，并在英语和法语语音信号中验证了该方法的有效性。

Jun, 2023

使用离散化和分解表示的无文本语音情感转换

本研究以口语语音转换为任务，将情感转换问题作为语音翻译任务，使用离散学习表示的语音信号分解，包括语音内容单元、韵律特征、说话人和情感，并使用预测表示生成神经波导器的语音波形来实现对口音内容的翻译，并通过客观和主观实验证明该方法在感知情感和音频质量方面优于当前方法，并在模型分析和消融研究中更好地强调所提方法的架构选择、优点和局限性。

Nov, 2021

使用不平衡的语音数据学习情感表示，用于语音情感识别和情感文本转语音

本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题，并采用数据增强方法训练模型以提取出通用有效的语音情感表征，为情感语音合成任务提供更具表现力的语音。

Jun, 2023

情感嵌入学习：从不同情感数据集中获取稳定统一的抽象

人类情感的计算研究涉及各种沟通方式和媒体格式，本文提出了一个统一的计算模型，通过学习共享的情感表示来实现对异质数据和标签类型的协同工作，以提高可重用性、可解释性和灵活性，并且不降低预测质量。

Aug, 2023

利用语言模型探索语音风格空间：无情感标签的情感合成

设计了一个新颖的两阶段框架 TEMOTTS，用于基于文本的情感语音合成任务，该框架在没有情感标签和文本提示的情况下进行训练，并能够无需辅助输入进行推理。利用 BERT 学习的语言空间和全局风格标记构建的情感风格空间之间进行知识转移，实验证明了该框架的有效性，提高了情感准确性和自然度。这是第一个充分利用口头内容与表现风格之间情感相关性的情感语音合成研究之一。

May, 2024