预训练特征引导扩散模型用于语音增强
最近,条件评分驱动扩散模型在监督式语音增强领域引起了显著关注,取得了最先进的性能。然而,这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题,我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言,训练阶段,在短时傅里叶变换(STFT)领域中使用评分驱动扩散模型学习了干净语音的先验分布,使其能够从高斯噪声中无条件地生成干净语音。然后,我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化(EM)方法与干净语音估计同时学习。据我们所知,这是第一个探索基于扩散的生成模型用于无监督语音增强的工作,与最近的变分自编码器(VAE)无监督方法和最先进的基于扩散的监督方法相比,取得了有希望的结果。因此,它为未来的无监督语音增强研究开辟了新的方向。
Sep, 2023
扩展图像生成文献中的扩散模型框架以适应语音增强任务,通过探究扩散模型的设计方面,如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量,证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化,并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统,并减少约四分之一的计算成本。
Dec, 2023
使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本,使用时间步骤相关的判别器将它们分开,并将梯度反向传播更新生成器,实验表明该增强策略能有效地提高语音识别词错误率。
Mar, 2023
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
本文提出一种基于递归变分自编码器(RVAE)的语音增强的生成方法, 通过与非负矩阵分解噪声模型相结合,仅使用干净的语音信号训练深度生成语音模型, 并在测试时微调 RVAE 的编码器以近似给出噪声语音观测下的潜在变量的分布。与基于前馈完全连接体系结构的先前方法相比,所提出的递归深度生成语音模型引入了潜在变量上的后期时间动态,其在语音增强结果方面表现更好。
Oct, 2019
本文介绍了一种利用基于分数的生成模型,即扩散模型,以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入,将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明,所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果,并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持,其中尤其在输入信噪比低的情况下,该模型的单词错误率明显降低。
Jun, 2023
使用深度动态生成模型和动态变分自动编码器代替非负矩阵分解模型,进行语音增强的无监督学习方法获得了与最先进的方法相竞争的性能,而噪声依赖性训练配置使推理过程效率更高。
Jun, 2023
扩散模型在生成式语音增强中被证明是强大的模型。本文强调方差的规模是语音增强性能的主要参数,并显示它控制了噪声衰减和语音失真之间的权衡,更具体地说,较大的方差增加了噪声衰减并允许减少计算量。
Feb, 2024
通过引入均方误差损失(MSE)来改善扩散训练目标,度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异,提出了一种增强语音的方法,实验证明其有效性。
Sep, 2023