May, 2023

大型语言模型蒸馏不需要教师

TL;DR本文介绍了一种针对大型语言模型的任务无关的零样本评估蒸馏方法,该方法使用截断版本的大模型作为初始化,并使用语言建模目标继续预训练该模型,已从根本上解决了对任务特定学习数据的依赖。本方法可以在无法将教师和学生都放入 GPU 内存的情况下将模型尺寸有效减少 50%,并在 13 个零样本端到端任务上达到了与基准蒸馏方法相当或超越的性能和准确性,计算效率提高了 1.5 倍。