WaveGrad:用于波形生成的梯度估计
本论文介绍了 WaveGrad 2,这是一种非自回归的生成模型,用于语音合成。通过迭代细化过程,模型使用梯度估计语音波形的对数条件密度,从而生成音频波形。实验证明,该模型可以生成高保真音频。
Jun, 2021
我们提出了一种称为 GLA-Grad 的新方案,该方案在正常扩散过程的每个步骤中引入了相位恢复算法,以最小化条件错误并提高噪声扩散过程的效率,尤其在为先前未见过的目标演讲者生成语音时,我们的算法优于最先进的扩散模型。
Feb, 2024
本文介绍了 DiffWave,这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形,并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频,并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。
Sep, 2020
本文旨在使用一种轻量级和快速的扩散基声码器(FreGrad)生成逼真的音频。通过离散小波变换将复杂波形分解为子带小波,以帮助 FreGrad 在简单的特征空间上进行操作;设计了一种频率感知膨胀卷积,提高频率感知性,产生具有准确频率信息的语音;引入了一些技巧,提升了所提模型的生成质量。在实验中,FreGrad 相比基线模型训练时间缩短了 3.7 倍,推理速度提高了 2.2 倍,同时模型尺寸减小了 0.6 倍(仅 1.78M 参数),且没有牺牲输出质量。音频样本可在此链接中找到:this https URL。
Jan, 2024
本研究提出了一种基于 TimeGrad 的自回归模型,用于多元概率时间序列预测,该模型在每个时间步长从数据分布中采样,通过估计梯度进行采样,采用扩散概率模型,优化可变界,通过 Langevin 采样将白噪声转换为感兴趣的分布样本,在实验中表明,该模型是当前实现多元概率预测的最佳方法之一,可实际应用于数千个相关维度的真实数据集。
Jan, 2021
本文介绍了一种新的生成模型,利用评分匹配来估计数据分布的梯度,通过 Langevin 动力学生成样本。我们的框架使得模型架构更加灵活,无需在训练期间进行抽样或使用对抗性方法,提供了可用于基于原则的模型比较的学习目标。在 MNIST、CelebA 和 CIFAR-10 数据集上,我们的模型产生的样本与 GAN 相当,实现了 CIFAR-10 inception 得分的新的最先进水平为 8.87。此外,我们通过图像修补实验证明了我们的模型学习到了有效的表示。
Jul, 2019
本文提出了 PriorGrad,通过基于条件信息的数据统计推导出自适应先验来提高条件扩散模型的效率,改进语音合成中基于谱和时间域的扩散生成模型,通过理论分析和实验验证,提高了效率和稳健性。
Jun, 2021
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
Grad-TTS 是一款使用基于得分的解码器的文本转语音模型,使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换,从而实现噪声到语音的重建,并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。
May, 2021
本文介绍了一种小型的 WaveFlow 产生式流,可以训练原始音频并合成高保真语音,只需几个步骤即可生成成千上万个时间步长的波形,并具有比 WaveGlow 小 15 倍的参数和 42.6 倍的音频合成速度。
Dec, 2019