May, 2023

基于 MLM 数据增强的 ASR 和 NLU 流水线系统:应对低资源挑战

TL;DR本文介绍了我们在 ICASSP Signal Processing Grand Challenge 2023 的 Spoken Language Understanding Grand Challenge 中低资源领域适应赛道(Track 3)中的系统,其中我们采用 ASR 和 NLU 的流水线方法。我们在每个领域上利用 upampling 对 Whisper 进行微调来进行 ASR。对于 NLU,我们在所有 Track3 数据上进行了 BART 的微调,然后在低资源领域的数据上进行了微调。我们应用了基于 MLM 的遮蔽 LM(MLM)-based 数据增强,并采用了基于检索的方法。通过以上方法,我们在 reminder/weather 领域实现了精确匹配(EM)准确率 63.3/75.0(平均:69.15),并在挑战中获得了第一名。