Sep, 2024
探索与增强知识蒸馏中分布转移的技术用于自回归语言模型
Exploring and Enhancing the Transfer of Distribution in Knowledge
Distillation for Autoregressive Language Models
TL;DR本研究解决了知识蒸馏在自回归语言模型中,传统方法无法充分捕获教师模型行为的问题。我们提出的在线知识蒸馏(OKD)方法,通过教师模型与学生模型的同时训练,实现了动态适应,从而显著提升蒸馏效果。研究结果表明,OKD在多个生成数据集上超越了现有领先方法,并最大可将训练时间减少四倍。