May, 2024

多任务多语言语音模型的高效压缩

TL;DR在这项研究中,我们发现了Whisper这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了DistilWhisper方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的ASR性能。