用于生成性语音增强的单步和少步扩散
最近,条件评分驱动扩散模型在监督式语音增强领域引起了显著关注,取得了最先进的性能。然而,这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题,我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言,训练阶段,在短时傅里叶变换(STFT)领域中使用评分驱动扩散模型学习了干净语音的先验分布,使其能够从高斯噪声中无条件地生成干净语音。然后,我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化(EM)方法与干净语音估计同时学习。据我们所知,这是第一个探索基于扩散的生成模型用于无监督语音增强的工作,与最近的变分自编码器(VAE)无监督方法和最先进的基于扩散的监督方法相比,取得了有希望的结果。因此,它为未来的无监督语音增强研究开辟了新的方向。
Sep, 2023
通过使用扩散过程中前向时间步的不同输出作为目标,该论文提出了一种降低预测误差幅度、减少训练时间的方法,通过神经网络层逐步去噪最终生成清晰音频,该技术在时间效率和音频质量上超越了现有的先进工具并具有良好的泛化能力。
Sep, 2023
扩展图像生成文献中的扩散模型框架以适应语音增强任务,通过探究扩散模型的设计方面,如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量,证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化,并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统,并减少约四分之一的计算成本。
Dec, 2023
提出了一种名为 Step-Adaptive Training 的创新训练策略,通过在初始阶段训练一个基础去噪模型来涵盖所有时间步长,然后将时间步长分成不同的组,在每个组内进行微调以实现专门的去噪能力,这种方法不仅提高了模型性能,还显著降低了计算成本。
Dec, 2023
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
通过引入均方误差损失(MSE)来改善扩散训练目标,度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异,提出了一种增强语音的方法,实验证明其有效性。
Sep, 2023
本文提出了一种基于普通微分方程的线性扩散模型(LinDiff),其旨在实现快速推理和高采样质量,并通过基于补丁的处理方法来减少计算复杂性和实现嘈杂语音的有效全局建模,并使用对抗性训练进一步改善样本质量,并在 Mel - 声谱图上条件语音合成中进行测试,实验结果表明,即使只有一个扩散步骤,该模型也可以合成高质量的语音,而且在更快的合成速度下合成质量与自回归模型相媲美。
Jun, 2023
本文通过导出一个变分框架来推导连续时间生成扩散理论,并表明该理论中最小化匹配得分损失等价于最大化该理论内所提出的可逆 SDE 插件的似然度的下限。
Jun, 2021
本研究引入了一个新的生成 SDE 模型,采用辅助鉴别器进行得分调整,通过训练鉴别器来估计预训练得分估计和真实数据得分之间的差距,进而进行调整。实验结果显示,该方法在无条件 / 有条件的 CIFAR-10 上实现了新的 SOTA FIDs 1.77/1.64,以及 ImageNet 256x256 上的新的 SOTA FID /sFID 3.18 / 4.53。
Nov, 2022