具有语言信息的强调表达 TTS 技术

May, 2023

具有语言信息的强调表达 TTS 技术

EE-TTS: Emphatic Expressive TTS with Linguistic Information

Yi Zhong, Chen Zhang, Xule Liu, Chenxi Sun, Weishan Deng...

TL;DR提出了一种基于 EE-TTS 的强调语音合成模型，该模型利用多层语言信息进行韵律信息的预测，并同时进行语音合成和语言信息输出，并经过实验证明其优于基线模型，并且在不同数据集上也具有较强的泛化能力。

Abstract

While Current tts systems perform well in synthesizing high-quality speech, producing highly expressive speech remains a challenge. emphasis, as a critical factor in determining the →

tts expressiveness emphasis linguistic information acoustic model

发现论文，激发创造

StoryTTS：一个具有丰富文本表达注释的高度表现力的文本到语音数据集

我们介绍了 StoryTTS，一种包含丰富的声学和文本表现力的 ETTS 数据集，通过系统和全面的标注框架定义了五个维度的文本表现力，并使用大型语言模型进行批量注释，结果是包含 61 小时的连续且高度抑扬顿挫的语音，带有准确的文本转录和丰富的文本表现力注释。实验证明，当与 StoryTTS 中的文本标签集成时，TTS 模型能够生成具有改进表现力的语音。

Apr, 2024

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

MM-TTS: 多模态、情绪感应文本转语音综合的统一框架

Multimodal Emotional Text-to-Speech System (MM-TTS) is proposed, which leverages emotional cues from multiple modalities, addresses the limitations of current approaches in capturing human emotions, and achieves superior performance compared to traditional Emotional Text-to-Speech models.

Apr, 2024

EMPHASIS: 基于情感音素的语音合成系统的声学模型

EMPHASIS 是一种基于情感音素的语音合成系统，使用 CBHG 回归网络来建模语音和声学特征之间的依赖关系，并采用特征分组策略来增强情感和韵律特征，可在实时生成具有高音质的感叹和疑问语调的多种语言（目前支持中英文），在情感语音合成实验中取得了更好的主观结果。

Jun, 2018

提升无文字语音翻译中的表达能力转移

通过离散语音单元级别的多语情感嵌入，以及有效地预测目标语言中的语音单元的音高和持续时间，本研究展示了一种能够有效捕捉跨不同语言的表达能力的新方法，通过客观和主观实验，结果显示本方法在提高传达情感和文化细微差别方面优于当前先进系统的表达能力转移。

Oct, 2023

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了 FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023

情感感知的韵律短语化对表达性文本转语音

为了提高端到端文本转语音（TTS）的自然程度和可理解性，本文提出了一种情感感知的韵律短语模型（EmoPP），准确挖掘话语的情感线索并预测适当的短语断点，并通过客观和主观评估证明 EmoPP 在情感表达能力方面优于所有基线模型，取得了显著的性能。音频样本和代码可在 https://github.com/AI-S2-Lab/EmoPP 获取。

Sep, 2023

零数据的文本语音可控重音

本文提出了一种可扩展的方法来产生高质量的文本转语音 (TTS) 的强调效果，并在不需要录音或注释的情况下实现，通过预测强调词的持续时间的简单但有效的方法，比光谱图修改技术更好地改善自然度 7.3％，并通过 40％正确测试强调的单词在一个女性 en-US 参考语音的句子中的识别。

Jul, 2023

使用 Style 标签的生动文本转语音技术

本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS，并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模，实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型，该模型表现出更好的语音质量和表现力。

Apr, 2021

QI-TTS: 用于情感语音合成的问句语调控制

本文提出 QI-TTS，通过多风格提取器和相对属性，实现了表达问句意图和转移 emmotion 的精细化音调控制，实验证明了其在情感语音合成中改善语调表达效果的有效性。

Mar, 2023