研究语音增强扩散模型的设计空间

Dec, 2023

研究语音增强扩散模型的设计空间

Investigating the Design Space of Diffusion Models for Speech Enhancement

Philippe Gonzalez, Zheng-Hua Tan, Jan Østergaard, Jesper Jensen, Tommy Sonne Alstrøm...

TL;DR扩展图像生成文献中的扩散模型框架以适应语音增强任务，通过探究扩散模型的设计方面，如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量，证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化，并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统，并减少约四分之一的计算成本。

Abstract

diffusion models are a new class of generative models that have shown outstanding performance in image generation literature. As a consequence, studies have attempted to apply diffusion models to other tasks, suc

diffusion models speech enhancement progressive transformation neural network preconditioning training loss weighting

发现论文，激发创造

基于扩散型生成模型的无监督语音增强

最近，条件评分驱动扩散模型在监督式语音增强领域引起了显著关注，取得了最先进的性能。然而，这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题，我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言，训练阶段，在短时傅里叶变换（STFT）领域中使用评分驱动扩散模型学习了干净语音的先验分布，使其能够从高斯噪声中无条件地生成干净语音。然后，我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化（EM）方法与干净语音估计同时学习。据我们所知，这是第一个探索基于扩散的生成模型用于无监督语音增强的工作，与最近的变分自编码器（VAE）无监督方法和最先进的基于扩散的监督方法相比，取得了有希望的结果。因此，它为未来的无监督语音增强研究开辟了新的方向。

Sep, 2023

音频修复的扩散模型

基于扩散模型的音频修复算法在语音增强和音乐修复任务中表现出色，既具有可解释性又具有出色的音质性能。

Feb, 2024

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

用于生成性语音增强的单步和少步扩散

通过两阶段训练方法，我们解决了扩散模型在语音增强中的潜在问题，实现了与基准模型相当的性能，缩短了推理过程时间，并显著优于扩散基线模型。

Sep, 2023

基于扩散的语音增强的方差分析

扩散模型在生成式语音增强中被证明是强大的模型。本文强调方差的规模是语音增强性能的主要参数，并显示它控制了噪声衰减和语音失真之间的权衡，更具体地说，较大的方差增加了噪声衰减并允许减少计算量。

Feb, 2024

一种灵活的扩散模型

本研究提出了一个通用的模型参数化框架，尤其是针对前向 SDE 的空间部分，通过理论保障和实验证明了其优越性。

Jun, 2022

音频扩散模型：关于生成 AI 中的文本转语音和语音增强的综述

本文对音频扩散模型进行了调查，针对文本转语音和语音增强这两个活跃任务，它将方法分为三类，即声学模型、波导合成和端到端框架，并通过添加或去除特定信号将各种语音增强任务进行分类，最后进行实验结果比较和讨论。

Mar, 2023

视觉中的扩散模型：一项调研

本综述为关于应用于计算机视觉的去噪扩散模型文章提供了全面的回顾，包括在领域中的理论和实际贡献，提供了三种通用扩散建模框架，并介绍了扩散模型与其他深度生成模型之间的关系，并引入了在计算机视觉中应用扩散模型的多个视角分类，最后，我们说明了离散模型的当前限制并预见了未来研究的一些有趣方向。

Sep, 2022

基于扩散的语音增强与带权的生成 - 监督学习损失

通过引入均方误差损失（MSE）来改善扩散训练目标，度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异，提出了一种增强语音的方法，实验证明其有效性。

Sep, 2023

使用线性扩散增强快速高质量语音合成

本文提出了一种基于普通微分方程的线性扩散模型（LinDiff），其旨在实现快速推理和高采样质量，并通过基于补丁的处理方法来减少计算复杂性和实现嘈杂语音的有效全局建模，并使用对抗性训练进一步改善样本质量，并在 Mel - 声谱图上条件语音合成中进行测试，实验结果表明，即使只有一个扩散步骤，该模型也可以合成高质量的语音，而且在更快的合成速度下合成质量与自回归模型相媲美。

Jun, 2023