Jun, 2023

针对自回归序列模型的广义知识蒸馏

TL;DR本论文提出了一种推广的知识蒸馏方法,旨在解决在训练和生成阶段输出序列之间的差异,并通过优化替代的发散方法来处理模型不充分的问题。实验证明,Generalized Knowledge Distillation (GKD) 在压缩生成语言模型时表现优异。