基于扩散的语音增强的方差分析

Feb, 2024

An Analysis of the Variance of Diffusion-based Speech Enhancement

Bunlong Lay, Timo Gerkmann

TL;DR扩散模型在生成式语音增强中被证明是强大的模型。本文强调方差的规模是语音增强性能的主要参数，并显示它控制了噪声衰减和语音失真之间的权衡，更具体地说，较大的方差增加了噪声衰减并允许减少计算量。

Abstract

diffusion models proved to be powerful models for generative speech enhancement. In recent SGMSE+ approaches, training involves a stochastic differential equation for the diffusion process, adding both Gaussian and environmental noise to the clean speech signal gradually. The speech en

diffusion models speech enhancement stochastic differential equation variance noise attenuation

发现论文，激发创造

研究语音增强扩散模型的设计空间

扩展图像生成文献中的扩散模型框架以适应语音增强任务，通过探究扩散模型的设计方面，如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量，证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化，并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统，并减少约四分之一的计算成本。

Dec, 2023

基于扩散的语音增强与带权的生成 - 监督学习损失

通过引入均方误差损失（MSE）来改善扩散训练目标，度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异，提出了一种增强语音的方法，实验证明其有效性。

Sep, 2023

基于扩散型生成模型的无监督语音增强

最近，条件评分驱动扩散模型在监督式语音增强领域引起了显著关注，取得了最先进的性能。然而，这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题，我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言，训练阶段，在短时傅里叶变换（STFT）领域中使用评分驱动扩散模型学习了干净语音的先验分布，使其能够从高斯噪声中无条件地生成干净语音。然后，我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化（EM）方法与干净语音估计同时学习。据我们所知，这是第一个探索基于扩散的生成模型用于无监督语音增强的工作，与最近的变分自编码器（VAE）无监督方法和最先进的基于扩散的监督方法相比，取得了有希望的结果。因此，它为未来的无监督语音增强研究开辟了新的方向。

Sep, 2023

基于方差保持的插值扩散模型用于语音增强

本研究的目标是实现扩散模型用于语音增强，介绍了基于方差保持的插值扩散和方差爆炸的插值扩散的框架，以及改进扩散模型的方法，并在公共基准中评估了该模型的性能

Jun, 2023

预训练特征引导扩散模型用于语音增强

通过整合频谱特征到变分自编码器（VAE）中，并在反向过程中利用预训练特征进行引导，结合确定性离散积分方法（DDIM）来简化抽样步骤，我们的模型提高了效率和语音增强质量，同时在两个不同信噪比的公共数据集上展示出最先进的结果，超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能，还增强了实际部署能力，而不增加计算需求。

Jun, 2024

噪声感知语音增强处理技术 —— 基于扩散概率模型

本文提出了一种噪声感知语音增强方法，通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程，并采用多任务学习模式来优化增强和分类任务，实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法，尤其是在未知噪声上表现出较好的泛化性能。

Jul, 2023

用于生成性语音增强的单步和少步扩散

通过两阶段训练方法，我们解决了扩散模型在语音增强中的潜在问题，实现了与基准模型相当的性能，缩短了推理过程时间，并显著优于扩散基线模型。

Sep, 2023

去噪扩散伽马模型

本文提出了一种基于 Gamma 噪声的去噪扩散 Gamma 模型（DDGM），并通过图像和语音生成任务验证了其性能优于传统的基于高斯噪声的扩散模型。

Oct, 2021

生成扩散模型的噪声估计

本文提出一种简单而通用的学习方案，可针对任何给定步骤逐步调整噪声参数，从而显著提高类比扩散模型的综合结果。

Apr, 2021

使用深度动态生成语音和噪音模型的无监督语音增强

使用深度动态生成模型和动态变分自动编码器代替非负矩阵分解模型，进行语音增强的无监督学习方法获得了与最先进的方法相竞争的性能，而噪声依赖性训练配置使推理过程效率更高。

Jun, 2023