异构基于图的上下文建模的对话语音合成的情感表达

AAAIDec, 2023

异构基于图的上下文建模的对话语音合成的情感表达

Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling

Rui Liu, Yifan Hu, Yi Ren, Xiang Yin, Haizhou Li

TL;DR我们提出了一种新颖的情感对话语音合成模型 (ECSS)，通过引入异构图的情感上下文建模机制以提高情感理解，以及使用对比学习的情感渲染器模块来推断目标话语的准确情感风格，解决了数据稀缺性问题，并注释了现有对话数据集 (DailyTalk) 上的附加情感信息。客观和主观评价表明，我们的模型在理解和表达情感方面优于基线模型，并强调了全面的情感注释的重要性。

Abstract

conversational speech synthesis (CSS) aims to accurately express an utterance with the appropriate prosody and emotional inflection within a conversational setting. While recognising the significance of CSS task, the prior studies have not thoroughly investigated the →

conversational speech synthesis emotional expressiveness emotion understanding emotion rendering emotional annotations

发现论文，激发创造

CONCSS: 对话语音合成中基于对比的上下文理解技术

在本研究中，我们引入了一种基于对比学习的对话语音合成 (CSS) 框架 CONCSS，利用一种创新的预训练任务来进行自监督学习，提升模型对对话语音数据集的上下文理解能力，并引入了一种负样本扩充的采样策略来增强上下文向量的区别性，实验结果表明我们提出的方法合成的语音具有更加上下文适应和敏感的音调。

Dec, 2023

利用异构图神经网络生成情感对话

本文提出了基于异构图模型的情感对话生成方法，利用对话历史记录、情感流、面部表情、音频和说话人个性等多维信息来编码对话内容并生成适当情感的响应，实验结果表明，该方法可以有效地感知多源知识并生成令人满意的响应。

Dec, 2020

利用真实对话数据实现多渠道连续语音分离

本研究提出一种可同时利用有标注数据和非标注数据进行连续语音分离模型训练的三阶段训练方案，并将其应用于任意麦克风阵列采集的多通道语音数据上取得了较好效果。

Apr, 2022

利用对话历史的语言和韵律语境进行端到端共情对话语音合成的声学建模

提出了一种综合考虑语言和韵律话语历史的共情式对话语音合成模型，通过预训练的自监督学习模型、引入韵律特征模型等手段，实现对话语境的适当预测，取得了优秀的语音合成效果。

Jun, 2022

ChatGPT-EDSS: 基于 ChatGPT 的上下文词嵌入所训练的共情对话语音合成

我们提出了一种名为 ChatGPT-EDSS 的共情式对话语音合成（EDSS）方法，使用 ChatGPT 提取对话上下文并训练一个 EDSS 模型来合成能够共情对话者情感的语音。实验结果表明，我们的方法表现与使用情感标签或从聊天历史中学习的神经网络派生上下文嵌入的模型相媲美。

May, 2023

自监督上下文感知风格表示在表现性语音合成中的应用

本文提出了一种利用自我监督学习从大量纯文本中学习风格表达的新框架，采用情感词典和对比学习和深度聚类，最终在多风格变换文本到语音系统中得到了更好的结果。

Jun, 2022

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

混合情感语音合成

本研究提出一种新的情感文本转语音框架，通过量化不同情绪之间的差异，训练模型并控制模型在运行时生成所需的情感混合，实现了语音情感合成研究中的情感混合模拟。

Aug, 2022

CauESC：情绪支持对话的因果感知模型

通过情绪支持对话来减少寻求者的情绪困扰，本研究提出了一种新的框架 CauESC，该框架通过识别困扰的情绪原因和由原因引发的情绪效果，独立并巧妙地整合每个言语修饰的策略，从而解决了现有方法中忽略情绪原因和仅关注寻求者自身心理状态问题的限制。基准数据集上的实验结果证明了我们方法的有效性，并展示了从原因到效果的情绪理解和独立整合策略建模的优势。

Jan, 2024

利用情感 - 语义相关性进行共情式回应生成

我们提出了一个动态的情感 - 语义相关模型（ESCM）来帮助生成共情性对话，它通过上下文和情感的交互构建了动态的情感 - 语义向量并引入了依赖树来反映情感和语义之间的相关性，通过动态的相关图卷积网络引导模型学习对话中的上下文含义并生成具有流畅且丰富信息的共情性回应。实验结果表明，ESCM 能更准确地理解语义和情感，并表达出具有流畅且信息丰富的共情性回应，分析结果也显示出对话中情感和语义之间的相关性的频繁使用对共情感知和表达具有重要意义。

Feb, 2024