Jul, 2023

通过 WavAugment 引导的音素对抗训练实现鲁棒的自动语音识别

TL;DR提出了一种新的 WavAugment Guided Phoneme Adversarial Training (wapat) 方法,利用对手示例在音素空间中进行增强,使模型对音素表示中的细微波动具有不变性,并在保持对清洁样本的性能的同时提高了泛化能力,在 End-to-end Speech Challenge Benchmark (ESB) 上取得了 state-of-the-art 的效果,SpeechLM-wapat 在 ESB 上将识别错误率降低了 6.28%。