使用 S3PRL 工具包进行语音数据增强方法比较
本文提出了一种名为 PhasePerturbation 的新型语音数据增强方法,利用动态的语音相位谱操作,通过随机化、频率遮蔽和时间遮蔽来增加语音数据的多样性。在 wav2vec2.0 预训练的 ASR 模型上,通过将模型与经过 PhasePerturbation 增强的 TIMIT 语料进行微调,实验证明相比没有增强操作的基准模型,词错误率(WER)相对降低了 10.9%。此外,通过结合基于振幅谱的增强方法 Vocal Tract Length Perturbation(VTLP)和 SpecAug,所提出的方法在 WER 上进一步提升了 12.9%和 15.9%,凸显了 PhasePerturbation 改进当前基于振幅谱的增强方法的能力。
Dec, 2023
通过在神经网络的特征输入(即滤波器组系数)中直接应用声音数据扩充方法 SpecAugment - 扭曲特征,掩盖一定数量的频道块以及时间步长,我们在端到端的语音识别任务上实现了最先进的性能,超过了所有以前的工作。
Apr, 2019
利用音频增强方法预训练自监督表示学习(SSRL)模型,相比监督模型,在低资源语言中改善了下游音素识别性能。研究比较了不同的增强技术,包括音高变化、噪音添加、目标语言口音和其他语言语音,并发现了综合增强(噪音 / 音高)是最佳的增强策略,超过了口音和语言知识迁移。研究结果表明,在资源有限的语言中,领域内的合成增强可以优于口音或其他语言的知识迁移。
Sep, 2023
本文介绍了一种基于 SpecAugment 的自适应掩蔽方法,该方法可以直接作用于语音识别中输入语音信号的高频图谱上,并证明了该方法在大规模数据集上的有效性,通过将增强数据与噪声扰动训练的数据混合使用,使得模型在所有测试领域中都取得了进一步的提升。
Dec, 2019
本文研究了一组用于混乱语音识别的数据增强技术,包括声道长度扰动(VTLP)、节奏扰动和速度扰动,并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献(LHUC)的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92%绝对(9.3%相对)的词错误率(WER),并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37%的整体 WER。
Jan, 2022
本文提出了 MixSpeech,一种基于混合学习的自动语音识别数据增强方法,通过该方法可以有效地提高模型性能,实验结果表明该方法优于基准模型和其他流行的数据增强方法。
Feb, 2021
本研究探讨了一种简单的数据增强技术 SpecAugment,用于端到端的语音翻译,通过遮蔽频道块和 / 或时间步骤,减轻过拟合,对 LibriSpeech Audiobooks En->Fr 数据集 BLEU 提高了 2.2%,对 IWSLT TED-talks En-> 通用德语数据集提高了 1.2%,并证明这一方法在各种数据条件下都能带来显著的改进。
Nov, 2019
采用数据增强和 TTS 技术,对 ASR 的训练数据进行扩充,并通过集成语言模型,在 LibriSpeech 数据上建立 end-to-end 模型,相对于半监督技术的效果更好。
May, 2020
本文提出了一种完整的训练流程,基于 TED-LIUM2 语料库构建了一个最先进的混合 HMM ASR 系统。其中使用 SpecAugment 进行数据增强和 i-vectors 来提高性能,并通过掩模效应的研究,取得了在不增加模型大小和训练时间的情况下,提高混合 HMM 模型的效果。最终采用 sMBR 来微调声学模型,并进行了 LSTM 和 Transformer 语言模型的训练和评估。本系统在测试集上取得了 5.6% 的词错误率,相对于之前的最先进模型提高了 27%。
Apr, 2020