StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

May, 2022

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

Yinghao Aaron Li, Cong Han, Nima Mesgarani

TL;DR提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

Abstract

text-to-speech (TTS) has recently seen great progress in synthesizing high-quality speech owing to the rapid development of parallel tts systems, but producing speech with naturalistic prosodic variations, speaki

text-to-speech parallel tts systems styletts natural prosody self-supervised learning

发现论文，激发创造

元音风格语音：多说话人适应性文本转语音生成

该研究提出了一种名为 StyleSpeech 的新型神经文本到语音合成模型，其中使用 Style-Adaptive Layer Normalization 以及 Meta-StyleSpeech 等技术，实现了在只有短时音频样本的情况下，能够高质量地合成符合目标人物语音风格的语音。实验结果显示，该模型能够显著地超越基准模型。

Jun, 2021

StyleTTS 2：通过样式扩散和大型语音语言模型的对抗训练实现人类水平的文本朗读

本文提出了 StyleTTS2，它是一个使用了样式扩散和对抗训练技术以及大型语音语言模型的文本转语音模型，它能够有效地进行潜在扩散，实现单个和多个说话人的人类级 TTS 合成。

Jun, 2023

Grad-StyleSpeech: 基于扩散模型的任意说话人自适应语音合成

本研究提出了一种基于扩散模型的 Grad-StyleSpeech 方法，可以在很短时间内生成极具声音相似度的自适应语音合成，并在英文基准测试中显著优于最新的语音合成基线。

Nov, 2022

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

使用 Style 标签的生动文本转语音技术

本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS，并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模，实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型，该模型表现出更好的语音质量和表现力。

Apr, 2021

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了 FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023

数据增强用于文本转语音的跨说话人风格转移

使用语音转换进行数据增强，构建单说话人多风格的 TTS 系统，实现控制不同说话人的风格和保留目标说话人身份的表达性语音转换。

Feb, 2022

Glow-TTS：通过单调对齐搜索的生成式流进行文本转语音

该论文提出 Glow-TTS，一种基于流的生成模型，用于并行 TTS，无需外部对齐器，并演示了其快速、多样化和可控的语音合成能力，是一种鲁棒的 TTS 模型。

May, 2020

基于扩散的具有风格建模的表达性文本转语音系统对时间变异性进行研究

基于参考语音的语音合成已经被广泛研究来合成自然语音，但在获取良好的表达风格和提高模型泛化能力方面存在限制。本研究提出了基于扩散的表达性语音合成 (DEX-TTS)—— 一种用于参考语音合成的声学模型，具有增强的风格表达能力。DEX-TTS 基于通用的扩散语音合成框架，包括编码器和适配器，用于处理从参考语音中提取的风格。关键创新包括将风格区分为时不变和时变两个类别，以实现有效的风格提取，以及高泛化能力的编码器和适配器的设计。此外，我们引入了重叠的 patchify 和卷积频率 patch 嵌入策略，以改进基于 DiT 的扩散网络用于 TTS。DEX-TTS 在英语多说话人和情感多说话人数据集上在客观和主观评估方面取得了出色的性能，而无需依赖预训练策略。最后，对于单说话人数据集的一般 TTS 的比较结果验证了我们增强的扩散骨干的有效性。演示请参见此处。

Jun, 2024

神经 TTS 中的文本驱动情感风格控制与跨说话人风格转移

该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法，利用双模态风格编码器以及新的风格损失函数，实现高质量的表达性语音合成。

Jul, 2022