基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

Oct, 2023

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN

Neeraj Kumar, Ankur Narang, Brejesh Lall

TL;DR使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Abstract

In this paper, we present a diffusion gan based approach (prosodic diff-tts) to generate the corresponding high-fidelity speech based on the style description and content text as an input to generate speech sampl

diffusion gan prosodic diff-tts style embeddings multi-speaker libritts promptspeech datasets

发现论文，激发创造

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

元音风格语音：多说话人适应性文本转语音生成

该研究提出了一种名为 StyleSpeech 的新型神经文本到语音合成模型，其中使用 Style-Adaptive Layer Normalization 以及 Meta-StyleSpeech 等技术，实现了在只有短时音频样本的情况下，能够高质量地合成符合目标人物语音风格的语音。实验结果显示，该模型能够显著地超越基准模型。

Jun, 2021

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

StyleTTS 2：通过样式扩散和大型语音语言模型的对抗训练实现人类水平的文本朗读

本文提出了 StyleTTS2，它是一个使用了样式扩散和对抗训练技术以及大型语音语言模型的文本转语音模型，它能够有效地进行潜在扩散，实现单个和多个说话人的人类级 TTS 合成。

Jun, 2023

通过音素级内容 - 风格解耦实现文本转语音合成中的细粒度风格建模、转移和预测

该论文提出了一种新型的神经网络系统，用于情感文本转语音合成中的细粒度风格建模、转移和预测，该系统通过从音素水平的语音段的梅尔光谱图中提取风格嵌入来实现细粒度建模，并应用协作学习和对抗学习策略来实现内容和风格因素的有效区分。该系统不仅可以用于单个说话者情况下的不同内容的语音风格转移，还可以用于文本到语音合成，并在内容保留方面表现更好。

Nov, 2020

Grad-StyleSpeech: 基于扩散模型的任意说话人自适应语音合成

本研究提出了一种基于扩散模型的 Grad-StyleSpeech 方法，可以在很短时间内生成极具声音相似度的自适应语音合成，并在英文基准测试中显著优于最新的语音合成基线。

Nov, 2022

NoreSpeech: 基于知识蒸馏的条件扩散模型，用于噪声鲁棒性表达 TTS

本论文提出了一种噪声鲁棒的表现性文本转语音模型（NoreSpeech），它能够从嘈杂的语音参考中有效地转移说话风格到合成语音中，这是通过一个新颖的 DiffStyle 模块，一个 VQ-VAE 块和一个可控的文本对齐模块实现的。实验表明，NoreSpeech 在噪声环境中比以前的表现性 TTS 模型更有效。

Nov, 2022

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

GenerSpeech: 通向可推广的跨域文本转语音风格转移

GenerSpeech 是一种用于处理 out-of-domain (OOD) 语音合成的文本到语音模型，具有高保真的零样式迁移能力。它通过两个组件将语音变化分解为样式不可知和样式特定部分，以提高模型的泛化能力，并在零样式迁移和自适应样式迁移方面超过了现有技术。

May, 2022

DiffProsody: 基于扩散的潜在韵律生成，用于具有韵律条件对抗训练的表情化语音合成

通过使用基于扩散的潜在韵律生成器和韵律条件对抗训练的新方法 DiffProsody，本研究证实了其在生成韵律向量方面的有效性，并且韵律条件鉴别器通过准确模拟韵律极大提高了生成语音的质量。使用去噪扩散生成对抗网络提高了韵律生成的速度，因此 DiffProsody 能够比传统的扩散模型生成韵律的速度快 16 倍。通过实验证明了我们提出的方法具有卓越的性能。

Jul, 2023