封闭源语言模型的知识蒸馏
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
知识蒸馏(KD)机制在大型语言模型(LLM)中起着关键作用,将专有的 GPT-4 等模型的先进功能和细腻理解传输到像 LLaMA 和 Mistral 这样的开源模型。此次调查详细讨论了 KD 机制、特定认知能力增强以及其在不同领域的实际应用,展示了数据增广(DA)和 KD 之间的相互关系,旨在弥合专有和开源 LLM 之间的差距,促进更具可访问性、高效性和可持续性的人工智能解决方案。
Feb, 2024
在知识蒸馏中,我们探索了一个很少被关注的问题:什么时候蒸馏知识?我们提出了模型校准的概念,将教师模型视为不仅提供知识的源头,而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案,可以在教师模型和训练数据之间进行学习,并在自然语言生成的上下文中进行了检验。实证比较表明,硬门控知识蒸馏不仅提高了模型的泛化性能,而且显著降低了模型的校准误差。
Oct, 2022
本文提出了一种名为 MiniLLM 的方法,该方法利用 Kullback-Leibler 散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了 MiniLLM 模型的性能表现更佳。
Jun, 2023
研究一个新的框架,基于 Symbolic Knowledge Distillation,使用通用语言模型自动化地从 ATOMIC 资源中筛选高质量因果常识,并创造一种新的常识模型,其大小只有原始模型的 1/100,但功能优于其老师模型。
Oct, 2021
研究自然语言生成(NLG)中的知识蒸馏技术优化模型并生成具体的文本任务,提出伪目标(PT)数据增强方法并应用于双方产生的多个 PT 的词级 KD,从而有效地压缩模型。
May, 2023
本文提出了通过知识蒸馏从内部表示来压缩 BERT 这样的大型模型,并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是,与仅使用软标签蒸馏相比,从内部表示来蒸馏是更强大的方法。
Oct, 2019
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019