Sep, 2023

基于扩散型生成模型的无监督语音增强

TL;DR最近,条件评分驱动扩散模型在监督式语音增强领域引起了显著关注,取得了最先进的性能。然而,这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题,我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言,训练阶段,在短时傅里叶变换(STFT)领域中使用评分驱动扩散模型学习了干净语音的先验分布,使其能够从高斯噪声中无条件地生成干净语音。然后,我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化(EM)方法与干净语音估计同时学习。据我们所知,这是第一个探索基于扩散的生成模型用于无监督语音增强的工作,与最近的变分自编码器(VAE)无监督方法和最先进的基于扩散的监督方法相比,取得了有希望的结果。因此,它为未来的无监督语音增强研究开辟了新的方向。