ACLMay, 2023
从弱教师进行知识蒸馏以提高预训练语言模型的规模研究
A Study on Knowledge Distillation from Weak Teacher for Scaling Up Pre-trained Language Models
Hayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Sung Ju Hwang...
TL;DR本文通过实验探究了 Distillation from Weak Teacher (DWT) 在 NLP 预训练中的最佳使用条件,主要涉及教师模型质量、DWT 损失权重值调整指南和参数重新映射技术对学生模型初始化的影响。