利用领域对抗训练的噪声自适应语音增强
本文提出了一个领域对抗训练算法(DAT)来缓解口音识别问题。我们将领域对抗训练(DAT)目标与 Kaldi TDNN 网络的学习目标相结合,鼓励模型学习不受口音影响的特征,以减少标准口音和带有口音的未标记目标域数据之间的不匹配。通过三种不同的普通话口音的实验,我们发现,与仅训练标准口音数据的基线相比,当我们没有口音转录时,DAT 可以使得字符错误率相对降低达 7.45%。我们还发现,DAT 与口音数据自动转录训练结合使用时具有优势,并且 DAT 比多任务学习在口音识别方面更为优异。
Jun, 2018
本文提出了一种噪声感知语音增强方法,通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程,并采用多任务学习模式来优化增强和分类任务,实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法,尤其是在未知噪声上表现出较好的泛化性能。
Jul, 2023
本文提出了一种基于深度神经网络的非监督领域自适应技术,该技术通过训练既能执行音素分类,又能执行领域分类的 DNN 模型,并明确建模两个域之间的不同之处,可以在 CHiME-3 数据集上实现接近 11.08%的相对词错误率(WER)降低。
Nov, 2017
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
本文探讨了对抗训练在自动语音识别中应用的有效性,在使用 Domain Adversarial Neural Networks (DANNs) 在多个数据集上的实验结果表明,对抗训练能够有效地进行无监督领域自适应,从而强调了 DANNs 从原始语音学习领域不变特征的能力。
May, 2018
本文提出了一种基于去噪声码器的语音增强方法,利用自监督学习获取语音的相关特征,并采用最佳的自监督学习配置,采用对抗训练方式进行声音去噪,最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。
Nov, 2022
本文介绍了一种基于生成对抗网络(GAN)的噪声鲁棒性语音识别系统,只需使用 10 分钟的领域内无法匹配的嘈杂语音数据即可实现噪声谱的仿真。同时,我们还提出了一种双通道语音识别系统来提高在嘈杂环境下的稳健性能,实验证明所提出的系统通过 Simu-GAN 仿真噪声数据,比最佳基线在词错误率(WER)方面提高了 7.3%。
Mar, 2022
本文采用基于自动选择属性变化的方法,通过对抗性学习和数据增强对源域语音数据进行协同变换以解决在鲁棒语音识别中遇到的训练 - 测试领域差异问题,实验表明将绝对词语误差率最多降低 35%。
Jul, 2017
利用条件生成对抗网络(cGANs)从噪声语音的谱图到增强副本,将其应用于语音增强(SE)中,并以感知语音质量(PESQ)、短时客观可懂度(STOI)和说话人验证等方面进行评估。实验结果显示,cGAN 方法整体上优于传统的 STSA-MMSE SE 算法,并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。
Sep, 2017