May, 2023

不可能的蒸馏:从低质量模型到高质量数据集与模型,用于摘要和释义

TL;DR该论文提出了一种语言模型的教学方法,通过 Impossible Distillation 实现对原模型进行无监督的特定任务的 dataset 压缩,并通过该数据集训练出高质量的学生模型,在不需要海量数据、评测和人工干预的情况下,获得比 175B 参数 GPT-3 更好的性能的模型,以及包括 3.4M 个句子摘要和释义的高质量数据集 DIMSUM+。