GLA-Grad:一种 Griffin-Lim 扩展的波形生成扩散模型
WaveGrad 是一种基于分数匹配和扩散概率模型生成波形的条件模型,它使用梅尔频谱来限制采样过程,并可通过调整迭代次数来平衡生成质量和速度。实验结果表明 WaveGrad 能够生成高保真度的音频样本,超越对抗样本和自回归模型,并通过少量的循环操作匹配了强度的似然自回归模型。
Sep, 2020
Grad-TTS 是一款使用基于得分的解码器的文本转语音模型,使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换,从而实现噪声到语音的重建,并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。
May, 2021
本文提出了一种基于扩散的概率端到端模型,用于生成原始语音波形,该模型通过自回归的方式顺序生成重叠帧,可以实现无限语音时长的合成,并保持高保真度和时间连贯性,通过直接处理波形具有优势,可以创建局部声学行为,同时该模型是随机的,生成略有差异的波形变体,实验结果表明相较于其他最先进的神经语音生成系统,所提出的模型具有更高的合成质量。
Oct, 2023
本论文介绍了 WaveGrad 2,这是一种非自回归的生成模型,用于语音合成。通过迭代细化过程,模型使用梯度估计语音波形的对数条件密度,从而生成音频波形。实验证明,该模型可以生成高保真音频。
Jun, 2021
本文提出了一种基于普通微分方程的线性扩散模型(LinDiff),其旨在实现快速推理和高采样质量,并通过基于补丁的处理方法来减少计算复杂性和实现嘈杂语音的有效全局建模,并使用对抗性训练进一步改善样本质量,并在 Mel - 声谱图上条件语音合成中进行测试,实验结果表明,即使只有一个扩散步骤,该模型也可以合成高质量的语音,而且在更快的合成速度下合成质量与自回归模型相媲美。
Jun, 2023
本文旨在使用一种轻量级和快速的扩散基声码器(FreGrad)生成逼真的音频。通过离散小波变换将复杂波形分解为子带小波,以帮助 FreGrad 在简单的特征空间上进行操作;设计了一种频率感知膨胀卷积,提高频率感知性,产生具有准确频率信息的语音;引入了一些技巧,提升了所提模型的生成质量。在实验中,FreGrad 相比基线模型训练时间缩短了 3.7 倍,推理速度提高了 2.2 倍,同时模型尺寸减小了 0.6 倍(仅 1.78M 参数),且没有牺牲输出质量。音频样本可在此链接中找到:this https URL。
Jan, 2024
本文介绍了 DiffWave,这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形,并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频,并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。
Sep, 2020
我们展示了如何从扩散模型中进行条件生成,以解决音乐制作中的各种现实任务,包括音乐音频的延续、修复和再生,不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。
Nov, 2023