ACLMay, 2023

BERT 知识蒸馏:权重初始化和蒸馏目标对影响的实证研究

TL;DR本文评估了不同的中间层蒸馏方法在 BERT 模型的压缩上的效果,并发现使用注意力转移方法获得了最佳性能。同时,通过研究初始化学生模型时选择的优化层对任务特异性的蒸馏表现影响显著,尤其是在 QNLI 任务方面,初始学习率较低的教师模型层获得了显著的性能提升。我们为后续研究发布了我们的代码作为高效的基于 Transformer 的模型蒸馏框架。