MM-TTS: 多模态、情绪感应文本转语音综合的统一框架

Apr, 2024

MM-TTS: 多模态、情绪感应文本转语音综合的统一框架

MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis

Xiang Li, Zhi-Qi Cheng, Jun-Yan He, Xiaojiang Peng, Alexander G. Hauptmann

TL;DRMultimodal Emotional Text-to-Speech System (MM-TTS) is proposed, which leverages emotional cues from multiple modalities, addresses the limitations of current approaches in capturing human emotions, and achieves superior performance compared to traditional Emotional Text-to-Speech models.

Abstract

emotional text-to-speech (E-TTS) synthesis has gained significant attention in recent years due to its potential to enhance human-computer interaction. However, current E-TTS approaches often struggle to capture the complexity of human emotions, primarily relying on oversimplified emot

emotional text-to-speech multimodal emotional text-to-speech system mm-tts emotion prompt alignment module emotion embedding-induced tts

发现论文，激发创造

利用语音 PTM、文本 LLM 和情感 TTS 进行语音情感识别

通过研究不同的预训练模型、情感文本合成和数据增强方法，本文提出了一种提高语音情感识别效果的方法，实验结果表明该方法在 IEMOCAP 数据集上具有较高的效果。

Sep, 2023

利用语言模型探索语音风格空间：无情感标签的情感合成

设计了一个新颖的两阶段框架 TEMOTTS，用于基于文本的情感语音合成任务，该框架在没有情感标签和文本提示的情况下进行训练，并能够无需辅助输入进行推理。利用 BERT 学习的语言空间和全局风格标记构建的情感风格空间之间进行知识转移，实验证明了该框架的有效性，提高了情感准确性和自然度。这是第一个充分利用口头内容与表现风格之间情感相关性的情感语音合成研究之一。

May, 2024

M2-CTTS: 端到端的多尺度、多模态会话文本到语音合成

提出了一种多尺度，多模态会话文本到语音系统（M2-CTTS），用于综合利用历史会话并增强韵律表达，通过考虑文本和声学因素的粗粒度和细粒度建模，并混合细粒度上下文信息及声学特征，实现了更好的韵律表现和自然度。

May, 2023

具有语言信息的强调表达 TTS 技术

提出了一种基于 EE-TTS 的强调语音合成模型，该模型利用多层语言信息进行韵律信息的预测，并同时进行语音合成和语言信息输出，并经过实验证明其优于基线模型，并且在不同数据集上也具有较强的泛化能力。

May, 2023

混合情感语音合成

本研究提出一种新的情感文本转语音框架，通过量化不同情绪之间的差异，训练模型并控制模型在运行时生成所需的情感混合，实现了语音情感合成研究中的情感混合模拟。

Aug, 2022

EmoSpeech：引领 FastSpeech2 朝向情感文本朗读技术的方向

本文探讨了在 FastSpeech2 的基础上如何通过更改结构实现情感语音的合成，并且在自动和人体评估中，创造了 EmoSpeech 模型，该模型的 MOS 得分和情感识别准确性均超过了现有模型。

Jun, 2023

利用自然语言提示控制语音合成中的情感

我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统，通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练，并在每次训练迭代中变化提示信息，以增加模型的泛化能力。客观和主观评估结果表明，该条件合成系统能够准确地将提示中的情感转移到语音中。同时，保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。

Jun, 2024

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

May, 2023

基于多任务学习和多模态动态融合网络的语音情感识别

本文提出了一种多模态多任务学习的情感识别方法，包括文本和声学模态的早期融合和自我注意力，使用动态融合网络用于语音编码器，得到了目前最先进的性能结果。

Mar, 2022

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022