NoreSpeech: 基于知识蒸馏的条件扩散模型，用于噪声鲁棒性表达 TTS

Nov, 2022

NoreSpeech: 基于知识蒸馏的条件扩散模型，用于噪声鲁棒性表达 TTS

NoreSpeech: Knowledge Distillation based Conditional Diffusion Model for Noise-robust Expressive TTS

Dongchao Yang, Songxiang Liu, Jianwei Yu, Helin Wang, Chao Weng...

TL;DR本论文提出了一种噪声鲁棒的表现性文本转语音模型（NoreSpeech），它能够从嘈杂的语音参考中有效地转移说话风格到合成语音中，这是通过一个新颖的 DiffStyle 模块，一个 VQ-VAE 块和一个可控的文本对齐模块实现的。实验表明，NoreSpeech 在噪声环境中比以前的表现性 TTS 模型更有效。

Abstract

Expressive text-to-speech (TTS) can synthesize a new speaking style by imiating prosody and timbre from a reference audio, which faces the following challenges: (1) The highly dynamic →

text-to-speech expressive tts noise-robust prosody style transfer

发现论文，激发创造

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

基于扩散的具有风格建模的表达性文本转语音系统对时间变异性进行研究

基于参考语音的语音合成已经被广泛研究来合成自然语音，但在获取良好的表达风格和提高模型泛化能力方面存在限制。本研究提出了基于扩散的表达性语音合成 (DEX-TTS)—— 一种用于参考语音合成的声学模型，具有增强的风格表达能力。DEX-TTS 基于通用的扩散语音合成框架，包括编码器和适配器，用于处理从参考语音中提取的风格。关键创新包括将风格区分为时不变和时变两个类别，以实现有效的风格提取，以及高泛化能力的编码器和适配器的设计。此外，我们引入了重叠的 patchify 和卷积频率 patch 嵌入策略，以改进基于 DiT 的扩散网络用于 TTS。DEX-TTS 在英语多说话人和情感多说话人数据集上在客观和主观评估方面取得了出色的性能，而无需依赖预训练策略。最后，对于单说话人数据集的一般 TTS 的比较结果验证了我们增强的扩散骨干的有效性。演示请参见此处。

Jun, 2024

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

薛定谔桥在文本转语音合成上胜过扩散模型

在这项研究中，我们提出了一种新的文本到语音系统，Bridge-TTS，通过将已建立的基于扩散的 TTS 方法中的嘈杂高斯先验替换为干净的确定性先验，以实现对目标的强结构信息的首次替代。

Dec, 2023

Grad-StyleSpeech: 基于扩散模型的任意说话人自适应语音合成

本研究提出了一种基于扩散模型的 Grad-StyleSpeech 方法，可以在很短时间内生成极具声音相似度的自适应语音合成，并在英文基准测试中显著优于最新的语音合成基线。

Nov, 2022

零样本语音调制用于去噪扩散 TTS 模型

本文提出了一种新的方法，通过采样识别新目标的自然语音数据，并在推理期间利用加噪扩散语音模型生成具有目标讲话者相似声音的音频，而不需要进行任何训练步骤。

Jun, 2022

噪声感知语音增强处理技术 —— 基于扩散概率模型

本文提出了一种噪声感知语音增强方法，通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程，并采用多任务学习模式来优化增强和分类任务，实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法，尤其是在未知噪声上表现出较好的泛化性能。

Jul, 2023

DenoiSpeech：基于帧级噪声建模的去噪语音合成

本研究提出了 DenoiSpeech 系统，它可以处理具有高噪声变异的实际世界噪声，使用细粒度的帧级噪声建模噪声条件模块与 TTS 模型共同训练，实验结果表明，DenoiSpeech 在真实环境数据上的性能要优于之前提出的两种方法 0.31 和 0.66 MOS。

Dec, 2020

梦言：当表达头部生成遇见扩散概率模型

利用扩散模型的潜力，提出了 DreamTalk 框架，通过精心设计的去噪网络、风格感知的唇部专家和风格预测器的关键组件，实现了生成具有表情的说话脸部的能力。

Dec, 2023