具有语言信息的强调表达 TTS 技术
我们介绍了 StoryTTS,一种包含丰富的声学和文本表现力的 ETTS 数据集,通过系统和全面的标注框架定义了五个维度的文本表现力,并使用大型语言模型进行批量注释,结果是包含 61 小时的连续且高度抑扬顿挫的语音,带有准确的文本转录和丰富的文本表现力注释。实验证明,当与 StoryTTS 中的文本标签集成时,TTS 模型能够生成具有改进表现力的语音。
Apr, 2024
本研究提出了一种新的任务设置,即什么样的语音是由特定环境所决定的,而非仅仅局限于情绪的预定义类别,为此,我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。
Nov, 2022
Multimodal Emotional Text-to-Speech System (MM-TTS) is proposed, which leverages emotional cues from multiple modalities, addresses the limitations of current approaches in capturing human emotions, and achieves superior performance compared to traditional Emotional Text-to-Speech models.
Apr, 2024
EMPHASIS 是一种基于情感音素的语音合成系统,使用 CBHG 回归网络来建模语音和声学特征之间的依赖关系,并采用特征分组策略来增强情感和韵律特征,可在实时生成具有高音质的感叹和疑问语调的多种语言(目前支持中英文),在情感语音合成实验中取得了更好的主观结果。
Jun, 2018
通过离散语音单元级别的多语情感嵌入,以及有效地预测目标语言中的语音单元的音高和持续时间,本研究展示了一种能够有效捕捉跨不同语言的表达能力的新方法,通过客观和主观实验,结果显示本方法在提高传达情感和文化细微差别方面优于当前先进系统的表达能力转移。
Oct, 2023
通过利用大型语言模型的语义推理能力,我们提出了 FreeStyleTTS(FS-TTS),一个具备最小人为注释的可控表达性语音合成模型,能够从原始输入文本或用户定义的描述中检索所需风格,从而实现灵活、多功能和精确的风格控制。
Nov, 2023
为了提高端到端文本转语音(TTS)的自然程度和可理解性,本文提出了一种情感感知的韵律短语模型(EmoPP),准确挖掘话语的情感线索并预测适当的短语断点,并通过客观和主观评估证明 EmoPP 在情感表达能力方面优于所有基线模型,取得了显著的性能。音频样本和代码可在 https://github.com/AI-S2-Lab/EmoPP 获取。
Sep, 2023
本文提出了一种可扩展的方法来产生高质量的文本转语音 (TTS) 的强调效果,并在不需要录音或注释的情况下实现,通过预测强调词的持续时间的简单但有效的方法,比光谱图修改技术更好地改善自然度 7.3%,并通过 40%正确测试强调的单词在一个女性 en-US 参考语音的句子中的识别。
Jul, 2023
本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS,并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模,实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型,该模型表现出更好的语音质量和表现力。
Apr, 2021
本文提出 QI-TTS,通过多风格提取器和相对属性,实现了表达问句意图和转移 emmotion 的精细化音调控制,实验证明了其在情感语音合成中改善语调表达效果的有效性。
Mar, 2023