基于扩散型生成模型的无监督语音增强

Sep, 2023

基于扩散型生成模型的无监督语音增强

Unsupervised speech enhancement with diffusion-based generative models

Berné Nortier, Mostafa Sadeghi, Romain Serizel

TL;DR最近，条件评分驱动扩散模型在监督式语音增强领域引起了显著关注，取得了最先进的性能。然而，这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题，我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言，训练阶段，在短时傅里叶变换（STFT）领域中使用评分驱动扩散模型学习了干净语音的先验分布，使其能够从高斯噪声中无条件地生成干净语音。然后，我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化（EM）方法与干净语音估计同时学习。据我们所知，这是第一个探索基于扩散的生成模型用于无监督语音增强的工作，与最近的变分自编码器（VAE）无监督方法和最先进的基于扩散的监督方法相比，取得了有希望的结果。因此，它为未来的无监督语音增强研究开辟了新的方向。

Abstract

Recently, conditional score-based diffusion models have gained significant attention in the field of supervised speech enhancement, yielding state-of-the-art performance. However, these methods may face challenge

conditional score-based diffusion models supervised speech enhancement unsupervised approach short-time fourier transform (stft)generative models

发现论文，激发创造

研究语音增强扩散模型的设计空间

扩展图像生成文献中的扩散模型框架以适应语音增强任务，通过探究扩散模型的设计方面，如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量，证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化，并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统，并减少约四分之一的计算成本。

Dec, 2023

基于扩散的语音增强与带权的生成 - 监督学习损失

通过引入均方误差损失（MSE）来改善扩散训练目标，度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异，提出了一种增强语音的方法，实验证明其有效性。

Sep, 2023

用于生成性语音增强的单步和少步扩散

通过两阶段训练方法，我们解决了扩散模型在语音增强中的潜在问题，实现了与基准模型相当的性能，缩短了推理过程时间，并显著优于扩散基线模型。

Sep, 2023

基于评分的生成模型的音视频语音增强

本文介绍了一种利用基于分数的生成模型，即扩散模型，以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入，将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明，所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果，并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持，其中尤其在输入信噪比低的情况下，该模型的单词错误率明显降低。

Jun, 2023

预训练特征引导扩散模型用于语音增强

通过整合频谱特征到变分自编码器（VAE）中，并在反向过程中利用预训练特征进行引导，结合确定性离散积分方法（DDIM）来简化抽样步骤，我们的模型提高了效率和语音增强质量，同时在两个不同信噪比的公共数据集上展示出最先进的结果，超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能，还增强了实际部署能力，而不增加计算需求。

Jun, 2024

通过扩散 GAN 提升无监督语音识别

使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本，使用时间步骤相关的判别器将它们分开，并将梯度反向传播更新生成器，实验表明该增强策略能有效地提高语音识别词错误率。

Mar, 2023

使用数据模拟进行非监督噪声适应

本文提出利用生成式对抗网络实现深度神经网络的非监督噪声自适应问题，成功地解决了训练 - 测试数据集之间的偏差，提高了语音增强模型的性能。

Feb, 2023

扩散模型辅助监督学习用于密度估计的生成模型

基于得分扩散模型的监督式学习框架用于训练生成模型，并通过生成标记数据解决了无监督训练中的问题，提高了采样效率和神经网络训练的时间节省。

Oct, 2023

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

基于扩散的表示学习

提出了一种基于扩散的表示学习方法，通过扩展去噪得分匹配框架实现无监督学习；使用此方法学习无限维潜在码，实现半监督图像分类的最优结果，并通过下游任务的表现比较与其他方法的学习表示质量。

May, 2021