May, 2023

面向任务无关的 BERT 压缩的权重继承蒸馏

TL;DR本文介绍了一种基于 Weight-Inherited Distillation (WID) 的知识蒸馏方法,通过直接从教师模型继承权重实现对学生模型的压缩,避免了传统方法中需要设计额外对齐损失的问题,实验结果表明 WID 在 GLUE 和 SQuAD 基准测试上的性能优于现有的知识蒸馏方法,并且可以在没有对齐损失的情况下学习到教师模型的注意力模式。