大型语言模型的知识蒸馏
本文介绍一种名为“Distilling step-by-step”的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注/非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
我们提出了一个名为f-DISTILL的框架,将序列级别的知识蒸馏作为最小化广义f-分歧函数的过程,并显示现有的SeqKD和ENGINE方法是我们f-DISTILL方法的近似。通过在四个数据集上的实验,我们发现我们的方法优于现有的蒸馏方法,并且我们的对称蒸馏损失可以更好地促使学生从教师分布中学习。
Jul, 2023
DistiLLM是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的Kullback-Leibler散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高4.3倍的加速比。
Feb, 2024
最近大型语言模型(LLMs)的进展引发了对推断成本的担忧,加大了对模型压缩研究的需求。尽管知识蒸馏(KD)是一种突出的方法,但对于生成性语言模型(如LLMs)的KD研究相对较少,而在分类模型的KD中表现出有希望的学生友好知识蒸馏方法在生成性语言模型中尚未被探索。为了探索这种方法,我们提出了PromptKD,一种简单而有效的方法,利用首次使用的提示调整方法在KD中实现生成性语言模型的学生友好知识转移。与需要对整个教师模型进行微调以提取学生友好知识的分类作品不同,PromptKD通过添加少量的提示符令牌并仅调整提示来实现类似效果,并在学生的指导下进行。在使用GPT-2模型系列对遵循指令的数据集进行的广泛实验表明,PromptKD实现了最先进的性能,并且仅添加了教师参数的0.0007%作为提示。进一步的分析表明,蒸馏学生友好的知识有效地减轻了整个训练过程中的曝光偏差,从而提高了性能。
Feb, 2024
通过Sinkhorn知识蒸馏方法,克服了传统教师-学生模式中Kullback-Leibler散度的模型坍缩、反Kullback-Leibler散度的模型平均以及Jensen-Shannon散度的模型低估等问题,有效地压缩大型语言模型并在多样的自然语言处理任务中取得了优越性能。
Feb, 2024
通过实证和理论证明,逆向Kullback-Leiber(RKL)分散度在大语言模型知识蒸馏中并非寻找模式而是均值寻找,与前向Kullback-Leiber(FKL)优化目标相同,经过足够多的迭代后二者收敛。基于实践约束,提出了一种简单而有效的自适应Kullback-Leiber(AKL)分散度方法,可以根据情况分配权重来结合FKL和RKL,根据评估结果显示,该方法在多个任务上优于基准,并提高生成回答的多样性和质量。
Apr, 2024
通过提出双空间知识蒸馏 (DSKD) 框架,我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题,并进一步开发了跨模型注意力机制,支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明,DSKD在各种距离函数下显著优于当前白盒知识蒸馏框架,并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。
Jun, 2024
这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查,将方法分为白盒知识蒸馏和黑盒知识蒸馏,并探讨了不同蒸馏方法之间的评估任务和蒸馏效果,并提出了未来研究的方向。通过深入了解最新进展和实际应用,这篇综述为研究人员提供了有价值的资源,为这一领域的持续进展铺平了道路。
Jul, 2024
本研究解决了预训练语言模型知识蒸馏中的效率、灵活性和有效性问题。通过MiniPLM框架,采用离线教师模型推理,优化了训练数据分布,提高了学生模型的知识获取能力。实验表明,MiniPLM在多个下游任务上显著提升了学生模型的性能,提高了语言建模能力,并降低了预训练计算需求。
Oct, 2024
本研究解决了预训练语言模型(KD)过程中效率、灵活性和有效性的问题。我们提出了MiniPLM框架,通过优化教师模型的知识提高训练数据的分布,以实现高效的离线推理和跨模型家族的知识蒸馏,并增强小模型的能力与知识多样性。实验表明,MiniPLM显著提升了学生模型在多个下游任务上的表现,同时减少了预训练计算量。
Oct, 2024