生成性表现对话语音合成
本文提出了“全局风格标记”(GST),即在Tacotron中共同训练的嵌入库,用于无标签的声学建模,可用于控制合成音频的速度、讲话风格和样式转换,从而提高生成长篇文本的效率和鲁棒性。
Mar, 2018
本文介绍了一种名为“Text-Predicted Global Style Token”的结构,能够使用GST技术,仅通过文本预测生成带有语音样式的合成语音,无需显式标签或辅助输入,并证明其能生成比两种基线模型更多具有音高和能量变化的音频,并且能够成功地分离说话者身份和语音风格。
Aug, 2018
本文将三个先前提出的可控生成结构应用于开放领域对话生成,控制生成的样式以匹配大约200种可能的样式之一,并比较它们各自的性能和权衡,展示它们如何提供对现有对话数据集的深入洞察,以及如何生成各种样式的会话回复
Sep, 2020
提出了 StyleTTS,一种基于风格的生成模型,用于生成具有自然韵律的多样化语音,通过自监督学习表示发声风格,无需明确标记。在内部评估中,该模型在单人和多人语音数据集中均优于最先进的模型。
May, 2022
FCTalker是一种基于fine and coarse-grained encoder的语音合成模型,使用了基于BERT的对话编码器来建立话语历史与语音合成之间的单词级别依赖关系,以提高合成语音的表现力和适应性。
Oct, 2022
我们提出了一种名为ChatGPT-EDSS的共情式对话语音合成(EDSS)方法,使用ChatGPT提取对话上下文并训练一个EDSS模型来合成能够共情对话者情感的语音。实验结果表明,我们的方法表现与使用情感标签或从聊天历史中学习的神经网络派生上下文嵌入的模型相媲美。
May, 2023
通过利用大型语言模型的语义推理能力,我们提出了FreeStyleTTS(FS-TTS),一个具备最小人为注释的可控表达性语音合成模型,能够从原始输入文本或用户定义的描述中检索所需风格,从而实现灵活、多功能和精确的风格控制。
Nov, 2023
在本研究中,我们引入了一种基于对比学习的对话语音合成(CSS)框架CONCSS,利用一种创新的预训练任务来进行自监督学习,提升模型对对话语音数据集的上下文理解能力,并引入了一种负样本扩充的采样策略来增强上下文向量的区别性,实验结果表明我们提出的方法合成的语音具有更加上下文适应和敏感的音调。
Dec, 2023
我们提出了一种新颖的情感对话语音合成模型(ECSS),通过引入异构图的情感上下文建模机制以提高情感理解,以及使用对比学习的情感渲染器模块来推断目标话语的准确情感风格,解决了数据稀缺性问题,并注释了现有对话数据集(DailyTalk)上的附加情感信息。客观和主观评价表明,我们的模型在理解和表达情感方面优于基线模型,并强调了全面的情感注释的重要性。
Dec, 2023
本研究解决了在语音对话生成中实时性与自然性不足的问题,提出了一种创新框架Style-Talker,通过微调音频语言模型与风格化文本到语音模型,利用用户输入音频生成响应的语音风格与文本。实验结果显示,Style-Talker在对话的自然性与连贯性上显著优于传统的级联模型,同时速度提高超过50%。
Aug, 2024