本文探讨了对抗训练在自动语音识别中应用的有效性,在使用 Domain Adversarial Neural Networks (DANNs) 在多个数据集上的实验结果表明,对抗训练能够有效地进行无监督领域自适应,从而强调了 DANNs 从原始语音学习领域不变特征的能力。
May, 2018
该研究提出了一种新颖的噪声自适应语音增强系统,该系统采用领域对抗训练方法解决训练和测试条件之间的噪声类型不匹配问题。实验结果表明,相较于没有自适应的 SE 系统,该系统在 PESQ、SSNR 和 STOI 方面可实现显著改善。
Jul, 2018
本文提出利用生成式对抗网络实现深度神经网络的非监督噪声自适应问题,成功地解决了训练 - 测试数据集之间的偏差,提高了语音增强模型的性能。
Feb, 2023
本文提出了一个领域对抗训练算法(DAT)来缓解口音识别问题。我们将领域对抗训练(DAT)目标与 Kaldi TDNN 网络的学习目标相结合,鼓励模型学习不受口音影响的特征,以减少标准口音和带有口音的未标记目标域数据之间的不匹配。通过三种不同的普通话口音的实验,我们发现,与仅训练标准口音数据的基线相比,当我们没有口音转录时,DAT 可以使得字符错误率相对降低达 7.45%。我们还发现,DAT 与口音数据自动转录训练结合使用时具有优势,并且 DAT 比多任务学习在口音识别方面更为优异。
Jun, 2018
本文提供了音频理解模型预训练策略的广泛比较分析,探讨了预训练数据集(音乐或通用音频)和预训练方法(有监督或无监督)对下游任务的影响,特别是在音乐领域的多项任务中,超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能,而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能,表现出较高的效率和通用性。
Oct, 2022
本论文提出一种 two-stage learning model,首先使用无监督学习将音频轨迹的局部频谱模式投射到高维稀疏空间中,并将其作为特征包进行总结。然后,在逐层无监督学习特征包的基础上初始化深度神经网络,结合标签标注对其进行精调。在 Magnatagatune 数据集上测试表明,该模型取得了高性能的效果。
Aug, 2015
本文提出了一种使用离线课程学习和代理分布的边际差异方法来消除标签噪声和特征噪声的领域自适应算法,并将其无缝转化为一个对抗网络进行联合优化,在存在噪声的环境下,与现有技术相比取得了超过 10%的准确度提高。
Apr, 2020
研究表明,对于训练和测试领域不匹配的情况下,当前的语音识别系统会显示出较大的性能下降。自我训练方法可以帮助解决这个问题,并在域漂移的情况下使模型适应。本文调查了在测试集上进行噪声学生教师训练作为测试时自适应方法的效益,类似于语言模型的动态评估方法,它可以在话语边界之间传递信息并作为一种域适应方法。实验中使用了一系列领域内和领域外数据集,展示了高达 32.2%的相对增益。有趣的是,我们的方法显示出比典型的自我训练设置使用单独的适应数据的更大增益。
Jun, 2024
本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021
提出了一种无需注释数据的音乐自动转录模型,通过利用可扩展的合成音频进行预训练和对抗性域混淆,实现了比使用混合注释真实音频数据学习时更高的准确性,在 AMT 研究领域中,揭示了这种方法的可扩展性和面临的挑战。
Dec, 2023