Dec, 2023

PhasePerturbation: 语音数据增强通过相位扰动的自动语音识别

TL;DR本文提出了一种名为 PhasePerturbation 的新型语音数据增强方法,利用动态的语音相位谱操作,通过随机化、频率遮蔽和时间遮蔽来增加语音数据的多样性。在 wav2vec2.0 预训练的 ASR 模型上,通过将模型与经过 PhasePerturbation 增强的 TIMIT 语料进行微调,实验证明相比没有增强操作的基准模型,词错误率(WER)相对降低了 10.9%。此外,通过结合基于振幅谱的增强方法 Vocal Tract Length Perturbation(VTLP)和 SpecAug,所提出的方法在 WER 上进一步提升了 12.9%和 15.9%,凸显了 PhasePerturbation 改进当前基于振幅谱的增强方法的能力。