ProDiff：高质量语音合成的渐进式快速扩散模型

Jul, 2022

ProDiff：高质量语音合成的渐进式快速扩散模型

ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech

Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui...

TL;DR本文提出了一种名为 ProDiff 的文本到语音模型，它利用渐进式快速扩散模型直接预测干净数据来减少扰动模型迭代次数，从而提高高质量的音频语音合成速度。使用基于 GPU 硬件的 ProDiff 模型可以实现 24 倍于实时速度的语音合成，相对于其他使用数百步骤的模型，它只需要进行 2 次模型迭代就能合成高保真和多样化的语音合成样本.

Abstract

denoising diffusion probabilistic models (DDPMs) have recently achieved leading performances in many generative tasks. However, the inherited iterative sampling process costs hinder their applications to text-to-speech<

denoising diffusion probabilistic models text-to-speech prodiff sampling speed high-quality

发现论文，激发创造

FastDiff：一种快速的有条件扩散模型，用于高质量语音合成

FastDiff 是一种快速条件扩散模型，通过应用时间感知的位置可变卷积和噪声预测器，实现了高质量语音合成，并在端到端文本到语音合成中实现了高保真度的语音波形生成，速度快达 58 倍。

Apr, 2022

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

使用线性扩散增强快速高质量语音合成

本文提出了一种基于普通微分方程的线性扩散模型（LinDiff），其旨在实现快速推理和高采样质量，并通过基于补丁的处理方法来减少计算复杂性和实现嘈杂语音的有效全局建模，并使用对抗性训练进一步改善样本质量，并在 Mel - 声谱图上条件语音合成中进行测试，实验结果表明，即使只有一个扩散步骤，该模型也可以合成高质量的语音，而且在更快的合成速度下合成质量与自回归模型相媲美。

Jun, 2023

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

Grad-TTS: 一种文本转语音的扩散概率模型

Grad-TTS 是一款使用基于得分的解码器的文本转语音模型，使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换，从而实现噪声到语音的重建，并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。

May, 2021

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

医学图像生成的快速去噪扩散概率模型

Fast-DDPM 是一种简单而有效的方法，可同时提高训练速度、采样速度和生成质量，通过仅使用 10 个时间步进行训练和采样，相比 DDPM，Fast-DDPM 能够在医学图像生成任务中优于基于卷积网络和生成对抗网络的当前最先进方法，并将训练时间缩短了 5 倍，采样时间缩短了 100 倍。

May, 2024

改进降噪扩散概率模型

通过对 DDPM 模型进行简单修改，可以在保持高质量样本的同时达到具有竞争力的对数似然值，并学习反向扩散过程的方差，从而使用数量级更少的正向传递采样。使用精度和召回率比较 DDPM 和 GAN 模型的性能，并证明这些模型的样本质量和似然值可以与模型容量和训练计算平稳地提高。

Feb, 2021

Diffusion-TS: 通用时间序列生成的可解释扩散

Denoising diffusion probabilistic models (DDPMs) are becoming the leading paradigm for generative models. In this paper, we propose Diffusion-TS, a novel diffusion-based framework that generates high-quality multivariate time series samples using an encoder-decoder transformer with disentangled temporal representations, aiming to satisfy both interpretability and realness.

Mar, 2024