StyleTTS 2：通过样式扩散和大型语音语言模型的对抗训练实现人类水平的文本朗读

Jun, 2023

StyleTTS 2：通过样式扩散和大型语音语言模型的对抗训练实现人类水平的文本朗读

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

PDF

Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima Mesgarani

TL;DR本文提出了 StyleTTS2，它是一个使用了样式扩散和对抗训练技术以及大型语音语言模型的文本转语音模型，它能够有效地进行潜在扩散，实现单个和多个说话人的人类级 TTS 合成。

Abstract

In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large spee

text-to-speech style diffusion adversarial training speech language models zero-shot speaker adaptation

发现论文，激发创造

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

Grad-StyleSpeech: 基于扩散模型的任意说话人自适应语音合成

本研究提出了一种基于扩散模型的 Grad-StyleSpeech 方法，可以在很短时间内生成极具声音相似度的自适应语音合成，并在英文基准测试中显著优于最新的语音合成基线。

Nov, 2022

元音风格语音：多说话人适应性文本转语音生成

该研究提出了一种名为 StyleSpeech 的新型神经文本到语音合成模型，其中使用 Style-Adaptive Layer Normalization 以及 Meta-StyleSpeech 等技术，实现了在只有短时音频样本的情况下，能够高质量地合成符合目标人物语音风格的语音。实验结果显示，该模型能够显著地超越基准模型。

Jun, 2021

NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的 TTS 系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

基于扩散的具有风格建模的表达性文本转语音系统对时间变异性进行研究

基于参考语音的语音合成已经被广泛研究来合成自然语音，但在获取良好的表达风格和提高模型泛化能力方面存在限制。本研究提出了基于扩散的表达性语音合成 (DEX-TTS)—— 一种用于参考语音合成的声学模型，具有增强的风格表达能力。DEX-TTS 基于通用的扩散语音合成框架，包括编码器和适配器，用于处理从参考语音中提取的风格。关键创新包括将风格区分为时不变和时变两个类别，以实现有效的风格提取，以及高泛化能力的编码器和适配器的设计。此外，我们引入了重叠的 patchify 和卷积频率 patch 嵌入策略，以改进基于 DiT 的扩散网络用于 TTS。DEX-TTS 在英语多说话人和情感多说话人数据集上在客观和主观评估方面取得了出色的性能，而无需依赖预训练策略。最后，对于单说话人数据集的一般 TTS 的比较结果验证了我们增强的扩散骨干的有效性。演示请参见此处。

Jun, 2024

Guided-TTS 2: 一种高质量自适应文本转语音扩散模型，可使用未转录数据

Guided-TTS 2 是一种基于扩散的生成模型，通过无文本数据实现高质量自适应语音合成。它结合了以发言者为条件的扩散模型和以发言者为依赖的音素分类器，借此适应文本到语音。通过无分类器指导的方法在大规模的未转录数据集上训练模型，然后在目标发言者的参考语音上进行微调，只需要 40 秒即可适应不同的语音。Guided-TTS 2 表现出与高质量单发言人 TTS 基准相当的语音质量和发言人相似性，只需要 10 秒未经转录的数据。在多发言人数据集上， Guided-TTS 2 即使在零样本自适应设置下也能胜过自适应 TTS 基线。而且，通过仅仅使用未转录语音就能够适应各种各样的声音，这使得非人类角色的语音也可以自适应合成，例如《指环王》中的咕噜姆。

May, 2022

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

May, 2023