基于方差保持的插值扩散模型用于语音增强
扩散模型在生成式语音增强中被证明是强大的模型。本文强调方差的规模是语音增强性能的主要参数,并显示它控制了噪声衰减和语音失真之间的权衡,更具体地说,较大的方差增加了噪声衰减并允许减少计算量。
Feb, 2024
扩展图像生成文献中的扩散模型框架以适应语音增强任务,通过探究扩散模型的设计方面,如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量,证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化,并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统,并减少约四分之一的计算成本。
Dec, 2023
通过引入均方误差损失(MSE)来改善扩散训练目标,度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异,提出了一种增强语音的方法,实验证明其有效性。
Sep, 2023
通过整合频谱特征到变分自编码器(VAE)中,并在反向过程中利用预训练特征进行引导,结合确定性离散积分方法(DDIM)来简化抽样步骤,我们的模型提高了效率和语音增强质量,同时在两个不同信噪比的公共数据集上展示出最先进的结果,超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能,还增强了实际部署能力,而不增加计算需求。
Jun, 2024
在这项工作中,我们介绍了 AV2Wav,这是一种基于重新综合的视听语音增强方法,可以在现实训练数据的挑战下生成清晰的语音。我们使用神经质量评估器从视听语音语料库中获取接近干净的子集,然后在这个子集上训练扩散模型,该模型以 AV-HuBERT 的连续语音表示为条件生成波形,并使用抗噪训练。我们使用连续表示而不是离散表示来保留韵律和说话人信息。仅仅通过这个声码任务,该模型的语音增强性能就优于基于掩模的基线。我们进一步在清晰 / 噪声话语对上对扩散模型进行微调以提高性能。我们的方法在自动度量和人工听力测试中均优于基于掩模的基线,并且在听力测试中的质量接近目标语音。
Sep, 2023
最近,条件评分驱动扩散模型在监督式语音增强领域引起了显著关注,取得了最先进的性能。然而,这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题,我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言,训练阶段,在短时傅里叶变换(STFT)领域中使用评分驱动扩散模型学习了干净语音的先验分布,使其能够从高斯噪声中无条件地生成干净语音。然后,我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化(EM)方法与干净语音估计同时学习。据我们所知,这是第一个探索基于扩散的生成模型用于无监督语音增强的工作,与最近的变分自编码器(VAE)无监督方法和最先进的基于扩散的监督方法相比,取得了有希望的结果。因此,它为未来的无监督语音增强研究开辟了新的方向。
Sep, 2023
本文提出一种整合预测语音增强和扩散语音增强的统一系统,通过编码两者信息,并应用生成和预测解码器,最终将两种方法的输出融合,实现语音增强。实验证明,该方法可加快解码速度并提高性能。
May, 2023
我们提出了去噪扩散变分推断(DDVI)算法,它是一种基于扩散模型作为表达性变分后验的潜变量模型的近似推断算法。我们的方法通过辅助潜变量来增强变分后验,从而得到一类表达性模型,通过反转用户指定的噪声过程在潜变量空间中进行扩散。通过优化受 wake-sleep 算法启发的边缘似然的一种新的下界,我们拟合这些模型。我们的方法易于实现(它适用于正则化的 ELBO 进一步扩展),与黑盒变分推断兼容,并且优于基于归一化流或对抗网络的替代近似后验类别。当应用于深层潜变量模型时,我们的方法得到了去噪扩散 VAE(DD-VAE)算法。我们将该算法应用于生物学中的一个激励任务 -- 从人类基因组推断潜在祖先 -- 在 Thousand Genomes 数据集上优于强基线模型。
Jan, 2024
本文提出了一种噪声感知语音增强方法,通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程,并采用多任务学习模式来优化增强和分类任务,实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法,尤其是在未知噪声上表现出较好的泛化性能。
Jul, 2023
深入探讨了在 Text-to-Speech(TTS)模型中通过在冻结的预训练模型中增加以联合语义音频 / 文本嵌入为条件的扩散模型来增强表达能力控制的挑战。论文识别了使用基于 VAE 的 TTS 模型时遇到的挑战,并评估了用于改变潜在语音特征的不同图像到图像方法。我们的结果为向 TTS 系统添加表达能力控制的复杂性提供了有价值的见解,并为未来研究开拓了新的方向。
Nov, 2023