情境表达式语音合成

Nov, 2022

Contextual Expressive Text-to-Speech

Jianhong Tu, Zeyu Cui, Xiaohuan Zhou, Siqi Zheng, Kai Hu...

TL;DR本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Abstract

The goal of expressive text-to-speech (TTS) is to synthesize natural speech with desired content, prosody, emotion, or timbre, in high expressiveness. Most of previous studies attempt to generate speech from give

expressive text-to-speech contextual tts speech synthesis natural speech emotions

发现论文，激发创造

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了 FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023

StoryTTS：一个具有丰富文本表达注释的高度表现力的文本到语音数据集

我们介绍了 StoryTTS，一种包含丰富的声学和文本表现力的 ETTS 数据集，通过系统和全面的标注框架定义了五个维度的文本表现力，并使用大型语言模型进行批量注释，结果是包含 61 小时的连续且高度抑扬顿挫的语音，带有准确的文本转录和丰富的文本表现力注释。实验证明，当与 StoryTTS 中的文本标签集成时，TTS 模型能够生成具有改进表现力的语音。

Apr, 2024

使用 Style 标签的生动文本转语音技术

本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS，并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模，实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型，该模型表现出更好的语音质量和表现力。

Apr, 2021

ContextSpeech：适用于段落阅读的表现力强、有效率的文本转语音技术

该论文提出了一种轻量级而有效的 TTS 系统 ContextSpeech，采用记忆缓存的复现机制和分层结构的文本语义，以及线性化的自注意力机制来增强全局文本和语音语境，并在长篇阅读中显着提高了语音质量和语调表现力。

Jul, 2023

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

具有语言信息的强调表达 TTS 技术

提出了一种基于 EE-TTS 的强调语音合成模型，该模型利用多层语言信息进行韵律信息的预测，并同时进行语音合成和语言信息输出，并经过实验证明其优于基线模型，并且在不同数据集上也具有较强的泛化能力。

May, 2023

自监督上下文感知风格表示在表现性语音合成中的应用

本文提出了一种利用自我监督学习从大量纯文本中学习风格表达的新框架，采用情感词典和对比学习和深度聚类，最终在多风格变换文本到语音系统中得到了更好的结果。

Jun, 2022

使用大型语言模型控制说话风格以实现表情丰富的 TTS

本研究旨在使用生成型语言模型与 TTS 模型，提供合适的发音特征，以更好地表达不同的说话风格和对话语境，从而提升语音合成的表现。

May, 2023

神经 TTS 中的文本驱动情感风格控制与跨说话人风格转移

该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法，利用双模态风格编码器以及新的风格损失函数，实现高质量的表达性语音合成。

Jul, 2022

M2-CTTS: 端到端的多尺度、多模态会话文本到语音合成

提出了一种多尺度，多模态会话文本到语音系统（M2-CTTS），用于综合利用历史会话并增强韵律表达，通过考虑文本和声学因素的粗粒度和细粒度建模，并混合细粒度上下文信息及声学特征，实现了更好的韵律表现和自然度。

May, 2023