生成性表现对话语音合成

Jul, 2024

Generative Expressive Conversational Speech Synthesis

Rui Liu, Yifan Hu, Yi Ren, Xiang Yin, Haizhou Li

TL;DR本文解决了现有对话语音合成方法在模拟真实自然对话风格方面的不足，提出了一种新颖的生成性表现对话语音合成系统——GPT-Talker。通过将多轮对话历史的多模态信息转化为离散的token序列，并利用GPT技术预测响应的token序列，使我们的模型在自然性和表现力上显著优于其他先进的对话语音合成系统。

Abstract

Conversational Speech Synthesis (CSS) aims to express a target utterance with the proper speaking style in a user-agent conversation setting. Existing CSS methods employ effective multi-modal context modeling techniques to achieve empathy understanding and expression. However, they oft

发现论文，激发创造

Style Tokens：端到端语音合成中的无监督风格建模、控制和转移

本文提出了“全局风格标记”（GST），即在Tacotron中共同训练的嵌入库，用于无标签的声学建模，可用于控制合成音频的速度、讲话风格和样式转换，从而提高生成长篇文本的效率和鲁棒性。

Mar, 2018

从文本预测端到端语音合成中的表现性语音风格

本文介绍了一种名为“Text-Predicted Global Style Token”的结构，能够使用GST技术，仅通过文本预测生成带有语音样式的合成语音，无需显式标签或辅助输入，并证明其能生成比两种基线模型更多具有音高和能量变化的音频，并且能够成功地分离说话者身份和语音风格。

Aug, 2018

生成对话中的样式控制

本文将三个先前提出的可控生成结构应用于开放领域对话生成，控制生成的样式以匹配大约200种可能的样式之一，并比较它们各自的性能和权衡，展示它们如何提供对现有对话数据集的深入洞察，以及如何生成各种样式的会话回复

Sep, 2020

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

FCTalker：细粒度和粗粒度上下文建模用于生动的对话语音合成

FCTalker是一种基于fine and coarse-grained encoder的语音合成模型，使用了基于BERT的对话编码器来建立话语历史与语音合成之间的单词级别依赖关系，以提高合成语音的表现力和适应性。

Oct, 2022

ChatGPT-EDSS: 基于ChatGPT的上下文词嵌入所训练的共情对话语音合成

我们提出了一种名为ChatGPT-EDSS的共情式对话语音合成（EDSS）方法，使用ChatGPT提取对话上下文并训练一个EDSS模型来合成能够共情对话者情感的语音。实验结果表明，我们的方法表现与使用情感标签或从聊天历史中学习的神经网络派生上下文嵌入的模型相媲美。

May, 2023

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023

CONCSS: 对话语音合成中基于对比的上下文理解技术

在本研究中，我们引入了一种基于对比学习的对话语音合成(CSS)框架CONCSS，利用一种创新的预训练任务来进行自监督学习，提升模型对对话语音数据集的上下文理解能力，并引入了一种负样本扩充的采样策略来增强上下文向量的区别性，实验结果表明我们提出的方法合成的语音具有更加上下文适应和敏感的音调。

Dec, 2023

异构基于图的上下文建模的对话语音合成的情感表达

我们提出了一种新颖的情感对话语音合成模型(ECSS)，通过引入异构图的情感上下文建模机制以提高情感理解，以及使用对比学习的情感渲染器模块来推断目标话语的准确情感风格，解决了数据稀缺性问题，并注释了现有对话数据集(DailyTalk)上的附加情感信息。客观和主观评价表明，我们的模型在理解和表达情感方面优于基线模型，并强调了全面的情感注释的重要性。

Dec, 2023

风格对话生成器：微调音频语言模型与基于风格的文本到语音模型以实现快速语音对话生成

本研究解决了在语音对话生成中实时性与自然性不足的问题，提出了一种创新框架Style-Talker，通过微调音频语言模型与风格化文本到语音模型，利用用户输入音频生成响应的语音风格与文本。实验结果显示，Style-Talker在对话的自然性与连贯性上显著优于传统的级联模型，同时速度提高超过50%。

Aug, 2024