Jul, 2024

MLKD-BERT:预训练语言模型的多层知识蒸馏

TL;DR我们提出了一种新颖的知识蒸馏方法MLKD-BERT,在教师-学生框架中蒸馏多层级知识。对GLUE基准和提取型问答任务的大量实验表明,我们的方法在BERT上胜过了最先进的知识蒸馏方法。此外,MLKD-BERT可以灵活设置学生注意力头数,能够显著减少推理时间并且性能损失很小。