BriefGPT.xyz
Jul, 2024
MLKD-BERT:预训练语言模型的多层知识蒸馏
MLKD-BERT: Multi-level Knowledge Distillation for Pre-trained Language Models
HTML
PDF
Ying Zhang, Ziheng Yang, Shufan Ji
TL;DR
我们提出了一种新颖的知识蒸馏方法MLKD-BERT,在教师-学生框架中蒸馏多层级知识。对GLUE基准和提取型问答任务的大量实验表明,我们的方法在BERT上胜过了最先进的知识蒸馏方法。此外,MLKD-BERT可以灵活设置学生注意力头数,能够显著减少推理时间并且性能损失很小。
Abstract
knowledge distillation
is an effective technique for
pre-trained language model compression
. Although existing
knowledge distillation
meth
→