BriefGPT.xyz
May, 2024
多任务多语言语音模型的高效压缩
Efficient Compression of Multitask Multilingual Speech Models
HTML
PDF
Thomas Palmeira Ferraz
TL;DR
在这项研究中,我们发现了Whisper这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了DistilWhisper方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的ASR性能。
Abstract
whisper
is a
multitask and multilingual speech model
covering 99 languages. It yields commendable automatic speech recognition (
asr
) resul
→