GLA-Grad：一种 Griffin-Lim 扩展的波形生成扩散模型

Feb, 2024

GLA-Grad：一种 Griffin-Lim 扩展的波形生成扩散模型

GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model

Haocheng Liu, Teysir Baoueb, Mathieu Fontaine, Jonathan Le Roux, Gael Richard

TL;DR我们提出了一种称为 GLA-Grad 的新方案，该方案在正常扩散过程的每个步骤中引入了相位恢复算法，以最小化条件错误并提高噪声扩散过程的效率，尤其在为先前未见过的目标演讲者生成语音时，我们的算法优于最先进的扩散模型。

Abstract

diffusion models are receiving a growing interest for a variety of signal generation tasks such as speech or music synthesis. wavegrad, for example, is a successful diffusion model that conditionally uses the

diffusion models wavegrad mel spectrogram gla-grad speech generation

发现论文，激发创造

WaveGrad：用于波形生成的梯度估计

WaveGrad 是一种基于分数匹配和扩散概率模型生成波形的条件模型，它使用梅尔频谱来限制采样过程，并可通过调整迭代次数来平衡生成质量和速度。实验结果表明 WaveGrad 能够生成高保真度的音频样本，超越对抗样本和自回归模型，并通过少量的循环操作匹配了强度的似然自回归模型。

Sep, 2020

Grad-TTS: 一种文本转语音的扩散概率模型

Grad-TTS 是一款使用基于得分的解码器的文本转语音模型，使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换，从而实现噪声到语音的重建，并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。

May, 2021

DiffAR: 去噪扩散自回归模型用于原始语音波形生成

本文提出了一种基于扩散的概率端到端模型，用于生成原始语音波形，该模型通过自回归的方式顺序生成重叠帧，可以实现无限语音时长的合成，并保持高保真度和时间连贯性，通过直接处理波形具有优势，可以创建局部声学行为，同时该模型是随机的，生成略有差异的波形变体，实验结果表明相较于其他最先进的神经语音生成系统，所提出的模型具有更高的合成质量。

Oct, 2023

WaveGrad 2: 文本到语音合成的迭代改进

本论文介绍了 WaveGrad 2，这是一种非自回归的生成模型，用于语音合成。通过迭代细化过程，模型使用梯度估计语音波形的对数条件密度，从而生成音频波形。实验证明，该模型可以生成高保真音频。

Jun, 2021

使用线性扩散增强快速高质量语音合成

本文提出了一种基于普通微分方程的线性扩散模型（LinDiff），其旨在实现快速推理和高采样质量，并通过基于补丁的处理方法来减少计算复杂性和实现嘈杂语音的有效全局建模，并使用对抗性训练进一步改善样本质量，并在 Mel - 声谱图上条件语音合成中进行测试，实验结果表明，即使只有一个扩散步骤，该模型也可以合成高质量的语音，而且在更快的合成速度下合成质量与自回归模型相媲美。

Jun, 2023

FreGrad：轻量级高速频率感知扩散语音合成器

本文旨在使用一种轻量级和快速的扩散基声码器（FreGrad）生成逼真的音频。通过离散小波变换将复杂波形分解为子带小波，以帮助 FreGrad 在简单的特征空间上进行操作；设计了一种频率感知膨胀卷积，提高频率感知性，产生具有准确频率信息的语音；引入了一些技巧，提升了所提模型的生成质量。在实验中，FreGrad 相比基线模型训练时间缩短了 3.7 倍，推理速度提高了 2.2 倍，同时模型尺寸减小了 0.6 倍（仅 1.78M 参数），且没有牺牲输出质量。音频样本可在此链接中找到：this https URL。

Jan, 2024

DiffWave：一种用于音频合成的通用扩散模型

本文介绍了 DiffWave，这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形，并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频，并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。

Sep, 2020

从离散的标记到高保真音频的多频带扩散

利用高保真多带扩散模型，基于低比特率离散表示生成任何类型的音频，其感知质量比最先进的生成技术更好。

Aug, 2023

去噪扩散伽马模型

本文提出了一种基于 Gamma 噪声的去噪扩散 Gamma 模型（DDGM），并通过图像和语音生成任务验证了其性能优于传统的基于高斯噪声的扩散模型。

Oct, 2021

扩散模型与指导梯度实现可控音乐制作

我们展示了如何从扩散模型中进行条件生成，以解决音乐制作中的各种现实任务，包括音乐音频的延续、修复和再生，不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。

Nov, 2023