Aug, 2023

婴儿骆驼:从小数据集上训练的教师集合中进行知识蒸馏,无性能惩罚

TL;DR我们提出了一种解决 BabyLM 挑战的方法,目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型,然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型,它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明,蒸馏不仅可以保持教师模型的全部性能,在后者被训练在足够小的数据集上时,还可以超过教师模型的性能,并且比直接训练要表现得更好。