Apr, 2024
知识蒸馏与固定计算预算下的从零开始训练对比
Knowledge Distillation vs. Pretraining from Scratch under a Fixed
(Computation) Budget
TL;DR相对于基于标准语言模型(LM)的从头开始预训练,知识蒸馏(KD)需要额外进行一次前向传递,通常所用的教师模型大大超过目标学生模型。本研究比较了从头开始预训练与几种KD策略在计算资源和预训练数据方面的表现,结果发现虽然从头开始预训练与固定计算资源下的普通KD相媲美,但更复杂的KD策略,即TinyBERT和MiniLM,优于从头开始预训练。