WaveGrad：用于波形生成的梯度估计

Sep, 2020

WaveGrad：用于波形生成的梯度估计

WaveGrad: Estimating Gradients for Waveform Generation

Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi...

TL;DRWaveGrad 是一种基于分数匹配和扩散概率模型生成波形的条件模型，它使用梅尔频谱来限制采样过程，并可通过调整迭代次数来平衡生成质量和速度。实验结果表明 WaveGrad 能够生成高保真度的音频样本，超越对抗样本和自回归模型，并通过少量的循环操作匹配了强度的似然自回归模型。

Abstract

This paper introduces wavegrad, a conditional model for waveform generation which estimates gradients of the data density. The model is built on prior work on →

wavegrad waveform generation score matching diffusion probabilistic models audio samples

发现论文，激发创造

WaveGrad 2: 文本到语音合成的迭代改进

本论文介绍了 WaveGrad 2，这是一种非自回归的生成模型，用于语音合成。通过迭代细化过程，模型使用梯度估计语音波形的对数条件密度，从而生成音频波形。实验证明，该模型可以生成高保真音频。

Jun, 2021

GLA-Grad：一种 Griffin-Lim 扩展的波形生成扩散模型

我们提出了一种称为 GLA-Grad 的新方案，该方案在正常扩散过程的每个步骤中引入了相位恢复算法，以最小化条件错误并提高噪声扩散过程的效率，尤其在为先前未见过的目标演讲者生成语音时，我们的算法优于最先进的扩散模型。

Feb, 2024

DiffWave：一种用于音频合成的通用扩散模型

本文介绍了 DiffWave，这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形，并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频，并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。

Sep, 2020

FreGrad：轻量级高速频率感知扩散语音合成器

本文旨在使用一种轻量级和快速的扩散基声码器（FreGrad）生成逼真的音频。通过离散小波变换将复杂波形分解为子带小波，以帮助 FreGrad 在简单的特征空间上进行操作；设计了一种频率感知膨胀卷积，提高频率感知性，产生具有准确频率信息的语音；引入了一些技巧，提升了所提模型的生成质量。在实验中，FreGrad 相比基线模型训练时间缩短了 3.7 倍，推理速度提高了 2.2 倍，同时模型尺寸减小了 0.6 倍（仅 1.78M 参数），且没有牺牲输出质量。音频样本可在此链接中找到：this https URL。

Jan, 2024

自回归去噪扩散模型用于多元概率时间序列预测

本研究提出了一种基于 TimeGrad 的自回归模型，用于多元概率时间序列预测，该模型在每个时间步长从数据分布中采样，通过估计梯度进行采样，采用扩散概率模型，优化可变界，通过 Langevin 采样将白噪声转换为感兴趣的分布样本，在实验中表明，该模型是当前实现多元概率预测的最佳方法之一，可实际应用于数千个相关维度的真实数据集。

Jan, 2021

通过估计数据分布梯度的方式进行生成建模

本文介绍了一种新的生成模型，利用评分匹配来估计数据分布的梯度，通过 Langevin 动力学生成样本。我们的框架使得模型架构更加灵活，无需在训练期间进行抽样或使用对抗性方法，提供了可用于基于原则的模型比较的学习目标。在 MNIST、CelebA 和 CIFAR-10 数据集上，我们的模型产生的样本与 GAN 相当，实现了 CIFAR-10 inception 得分的新的最先进水平为 8.87。此外，我们通过图像修补实验证明了我们的模型学习到了有效的表示。

Jul, 2019

PriorGrad: 使用数据相关自适应先验提高条件降噪扩散模型的性能

本文提出了 PriorGrad，通过基于条件信息的数据统计推导出自适应先验来提高条件扩散模型的效率，改进语音合成中基于谱和时间域的扩散生成模型，通过理论分析和实验验证，提高了效率和稳健性。

Jun, 2021

WaveNet：原始音频的生成模型

该研究介绍了 WaveNet，一种用于生成原始音频波形的深度神经网络，该模型是完全概率的和自回归的，应用于文本到语音，产生了最先进的性能，用于模拟音乐，生成新颖且高度逼真的音乐片段，并可作为一种判别模型返回有希望的语素识别结果。

Sep, 2016

Grad-TTS: 一种文本转语音的扩散概率模型

Grad-TTS 是一款使用基于得分的解码器的文本转语音模型，使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换，从而实现噪声到语音的重建，并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。

May, 2021

WaveFlow: 面向原始音频的紧凑流模型

本文介绍了一种小型的 WaveFlow 产生式流，可以训练原始音频并合成高保真语音，只需几个步骤即可生成成千上万个时间步长的波形，并具有比 WaveGlow 小 15 倍的参数和 42.6 倍的音频合成速度。

Dec, 2019