使用深度动态生成语音和噪音模型的无监督语音增强
本文提出一种基于递归变分自编码器(RVAE)的语音增强的生成方法, 通过与非负矩阵分解噪声模型相结合,仅使用干净的语音信号训练深度生成语音模型, 并在测试时微调 RVAE 的编码器以近似给出噪声语音观测下的潜在变量的分布。与基于前馈完全连接体系结构的先前方法相比,所提出的递归深度生成语音模型引入了潜在变量上的后期时间动态,其在语音增强结果方面表现更好。
Oct, 2019
本文提出了一种基于非负矩阵分解的贝叶斯监督算法,通过使用 HMM 和在线学习模型解决了模型训练时的匹配问题,并在实验中得出该方法比竞争方法表现更优的结论。
Sep, 2017
最近,条件评分驱动扩散模型在监督式语音增强领域引起了显著关注,取得了最先进的性能。然而,这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题,我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言,训练阶段,在短时傅里叶变换(STFT)领域中使用评分驱动扩散模型学习了干净语音的先验分布,使其能够从高斯噪声中无条件地生成干净语音。然后,我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化(EM)方法与干净语音估计同时学习。据我们所知,这是第一个探索基于扩散的生成模型用于无监督语音增强的工作,与最近的变分自编码器(VAE)无监督方法和最先进的基于扩散的监督方法相比,取得了有希望的结果。因此,它为未来的无监督语音增强研究开辟了新的方向。
Sep, 2023
通过整合频谱特征到变分自编码器(VAE)中,并在反向过程中利用预训练特征进行引导,结合确定性离散积分方法(DDIM)来简化抽样步骤,我们的模型提高了效率和语音增强质量,同时在两个不同信噪比的公共数据集上展示出最先进的结果,超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能,还增强了实际部署能力,而不增加计算需求。
Jun, 2024
本文提出了 ConvDMM,这是一种使用非线性发射和转移函数模型的高斯状态空间模型,并使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型。当在大规模语音数据集上进行训练时,ConvDMM 产生的特征在线性电话分类和在 WSJ 数据集上的识别方面显着优于多个自我监督的特征提取方法,并且可以与 Wav2Vec 和 PASE 等自我监督的方法相辅相成,进一步提高了结果。最后,我们发现,在少量标记训练示例的极低资源之下,ConvDMM 功能使得学习更好的电话识别器比任何其他功能。
Jun, 2020
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本,使用时间步骤相关的判别器将它们分开,并将梯度反向传播更新生成器,实验表明该增强策略能有效地提高语音识别词错误率。
Mar, 2023
本文提出了一种利用动态模式和生成模型的方法 (DyGen),用于在 fine-tuning 语言模型时应对带有噪声标签的问题,并显示出与现有方法比平均准确性提高了 3.10%(在两个合成噪声数据集上)和 1.48%(在三个实际噪声数据集上)的改进。
May, 2023