May, 2023
AD-KD: 基于属性的知识蒸馏用于语言模型压缩
AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression
TL;DR本文提出了一种基于Integrated Gradients的新颖的归因驱动知识蒸馏方法,它探索了教师模型背后的token-level解释,并将知识转移给学生模型,进一步探索了多视角归因蒸馏。实验证明我们的方法在GLUE基准测试中具有比其他现有方法更好的性能。