ACLJun, 2024

论鲁棒知识蒸馏的稳健性问题

TL;DR在阿拉伯语自动语音识别(ASR)方面存在独特的挑战,为了克服这些挑战,本研究采用知识蒸馏技术将大型教师模型提取为更高效的小型学生模型,引入了一份人工标注的新数据集以评估五个少见的阿拉伯方言。在现有基准测试和新的方言数据上,我们的最佳蒸馏模型整体表现优于现有模型(SeamlessM4T-large-v2,WER=47.0%)和教师模型(Whisper-large-v2,WER=55.1%),并且在新的方言数据上的平均性能(WER=56.9%)超过了所有其他模型。通过错误分析,揭示了这些模型在方言数据上表现不佳的主要错误类型。