Nov, 2022

预训练语言模型的梯度知识蒸馏

TL;DR本文提出了一种新的知识蒸馏方法(GKD),通过引入梯度对齐这一重要的知识源,以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明,使用 GKD 比先前的知识蒸馏方法效果更好。