ACLMay, 2023

从弱教师进行知识蒸馏以提高预训练语言模型的规模研究

TL;DR本文通过实验探究了 Distillation from Weak Teacher (DWT) 在 NLP 预训练中的最佳使用条件,主要涉及教师模型质量、DWT 损失权重值调整指南和参数重新映射技术对学生模型初始化的影响。