通过利用大型语言模型的语义推理能力,我们提出了 FreeStyleTTS(FS-TTS),一个具备最小人为注释的可控表达性语音合成模型,能够从原始输入文本或用户定义的描述中检索所需风格,从而实现灵活、多功能和精确的风格控制。
Nov, 2023
我们介绍了 StoryTTS,一种包含丰富的声学和文本表现力的 ETTS 数据集,通过系统和全面的标注框架定义了五个维度的文本表现力,并使用大型语言模型进行批量注释,结果是包含 61 小时的连续且高度抑扬顿挫的语音,带有准确的文本转录和丰富的文本表现力注释。实验证明,当与 StoryTTS 中的文本标签集成时,TTS 模型能够生成具有改进表现力的语音。
Apr, 2024
本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS,并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模,实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型,该模型表现出更好的语音质量和表现力。
Apr, 2021
该论文提出了一种轻量级而有效的 TTS 系统 ContextSpeech,采用记忆缓存的复现机制和分层结构的文本语义,以及线性化的自注意力机制来增强全局文本和语音语境,并在长篇阅读中显着提高了语音质量和语调表现力。
Jul, 2023
本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展,进一步总结了相关资源(数据集、开源实现),并提出了未来的研究方向。
Jun, 2021
提出了一种基于 EE-TTS 的强调语音合成模型,该模型利用多层语言信息进行韵律信息的预测,并同时进行语音合成和语言信息输出,并经过实验证明其优于基线模型,并且在不同数据集上也具有较强的泛化能力。
May, 2023
本文提出了一种利用自我监督学习从大量纯文本中学习风格表达的新框架,采用情感词典和对比学习和深度聚类,最终在多风格变换文本到语音系统中得到了更好的结果。
Jun, 2022
本研究旨在使用生成型语言模型与 TTS 模型,提供合适的发音特征,以更好地表达不同的说话风格和对话语境,从而提升语音合成的表现。
该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法,利用双模态风格编码器以及新的风格损失函数,实现高质量的表达性语音合成。
Jul, 2022
提出了一种多尺度,多模态会话文本到语音系统(M2-CTTS),用于综合利用历史会话并增强韵律表达,通过考虑文本和声学因素的粗粒度和细粒度建模,并混合细粒度上下文信息及声学特征,实现了更好的韵律表现和自然度。