FastDiff：一种快速的有条件扩散模型，用于高质量语音合成

IJCAIApr, 2022

FastDiff：一种快速的有条件扩散模型，用于高质量语音合成

FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis

Rongjie Huang, Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu...

TL;DRFastDiff 是一种快速条件扩散模型，通过应用时间感知的位置可变卷积和噪声预测器，实现了高质量语音合成，并在端到端文本到语音合成中实现了高保真度的语音波形生成，速度快达 58 倍。

Abstract

denoising diffusion probabilistic models (DDPMs) have recently achieved leading performances in many generative tasks. However, the inherited iterative sampling process costs hindered their applications to speech synthe

denoising diffusion probabilistic models fastdiff speech synthesis stack of time-aware location-variable convolutions text-to-speech synthesizer

发现论文，激发创造

ProDiff：高质量语音合成的渐进式快速扩散模型

本文提出了一种名为 ProDiff 的文本到语音模型，它利用渐进式快速扩散模型直接预测干净数据来减少扰动模型迭代次数，从而提高高质量的音频语音合成速度。使用基于 GPU 硬件的 ProDiff 模型可以实现 24 倍于实时速度的语音合成，相对于其他使用数百步骤的模型，它只需要进行 2 次模型迭代就能合成高保真和多样化的语音合成样本.

Jul, 2022

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

使用线性扩散增强快速高质量语音合成

本文提出了一种基于普通微分方程的线性扩散模型（LinDiff），其旨在实现快速推理和高采样质量，并通过基于补丁的处理方法来减少计算复杂性和实现嘈杂语音的有效全局建模，并使用对抗性训练进一步改善样本质量，并在 Mel - 声谱图上条件语音合成中进行测试，实验结果表明，即使只有一个扩散步骤，该模型也可以合成高质量的语音，而且在更快的合成速度下合成质量与自回归模型相媲美。

Jun, 2023

关于扩散概率模型的快速采样

FastDPM 是一种用于快速抽样扩散概率模型的统一框架，通过在不同领域、不同数据集上系统地研究该框架下的快速抽样方法，探讨了特定方法在不同数据领域、抽样速度与质量权衡以及条件信息的数量上的性能差异，并为从业者提供了选择方法的洞见和配方。

May, 2021

医学图像生成的快速去噪扩散概率模型

Fast-DDPM 是一种简单而有效的方法，可同时提高训练速度、采样速度和生成质量，通过仅使用 10 个时间步进行训练和采样，相比 DDPM，Fast-DDPM 能够在医学图像生成任务中优于基于卷积网络和生成对抗网络的当前最先进方法，并将训练时间缩短了 5 倍，采样时间缩短了 100 倍。

May, 2024

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

DiffWave：一种用于音频合成的通用扩散模型

本文介绍了 DiffWave，这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形，并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频，并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。

Sep, 2020

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022