大型语言模型的知识蒸馏调查

Feb, 2024

A Survey on Knowledge Distillation of Large Language Models

Xiaohan Xu, Ming Li, Chongyang Tao, Tao Shen, Reynold Cheng...

TL;DR知识蒸馏（KD）机制在大型语言模型（LLM）中起着关键作用，将专有的 GPT-4 等模型的先进功能和细腻理解传输到像 LLaMA 和 Mistral 这样的开源模型。此次调查详细讨论了 KD 机制、特定认知能力增强以及其在不同领域的实际应用，展示了数据增广（DA）和 KD 之间的相互关系，旨在弥合专有和开源 LLM 之间的差距，促进更具可访问性、高效性和可持续性的人工智能解决方案。

Abstract

This survey presents an in-depth exploration of knowledge distillation (KD) techniques within the realm of large language models (LLMs), spotlighting the pivotal role of KD in transferring sophisticated capabilit

knowledge distillation large language models proprietary open-source data augmentation

发现论文，激发创造

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

神经语言模型的一致性蒸馏架构

本研究探讨了一种 Knowledge Distillation 的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能，同时在 Plagiarism Detection 方面也有了更好的表现。

Jan, 2023

运用大型语言模型和主动学习演化知识蒸馏

提出了 EvoKD：演化知識蒸餾方法，利用主動學習的概念提升大型語言模型的數據生成過程，同時改善小型領域模型的任務能力。實驗和分析表明 EvoKD 在不同的自然語言處理任務，如文本分類和命名實體識別方面具有有效性。

Mar, 2024

大型语言模型的直接偏好知识蒸馏

在大型语言模型领域，我们提出了 Direct Preference Knowledge Distillation (DPKD) 方法，通过利用分布差异来表示偏好损失和隐式奖励函数，将语言模型知识蒸馏分为两个阶段，并通过实验证明了其广泛适用性和有效性。同时，我们通过实验和理论分析证明了引入的隐式奖励和输出偏好在知识蒸馏中的价值和效果，DPKD 方法在输出响应精度和完全匹配百分比上优于基准方法。

Jun, 2024

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

基于 Transformer 的语言模型的知识蒸馏再探

针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题，该研究提出一种基于 knowledge distillation 的压缩方法，并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面，最终提供一套最佳实践指南。

Jun, 2022

利用知识蒸馏压缩多语言神经机器翻译模型的实证研究

本文探讨了如何通过知识蒸馏来压缩 MNMT 模型，发现这是一项具有挑战性的任务，并提出了一些设计思考和优化方案。

Apr, 2023

大型语言模型的双空间知识蒸馏

通过提出双空间知识蒸馏 (DSKD) 框架，我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题，并进一步开发了跨模型注意力机制，支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明，DSKD 在各种距离函数下显著优于当前白盒知识蒸馏框架，并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。

Jun, 2024

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023