迈向交叉标记器蒸馏：面向语言模型的通用逻辑蒸馏损失

ACLFeb, 2024

迈向交叉标记器蒸馏：面向语言模型的通用逻辑蒸馏损失

Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs

Nicolas Boizard, Kevin El-Haddad, Céline Hudelot, Pierre Colombo

TL;DR通过使用基于最优传输的通用对数蒸馏（ULD）损失函数，我们解决了传统方法中教师模型和学生模型需共享分词器的限制，提供了一种跨不同架构和分词器进行蒸馏的有效方法，为蒸馏技术的广泛应用铺平了道路。

Abstract

Deploying large language models (LLMs) of several billion parameters can be impractical in most industrial use cases due to constraints such as cost, latency limitations, and hardware accessibility. knowledge distillati

large language models knowledge distillation teacher model student model universal logit distillation

发现论文，激发创造

BiLD: 大型语言模型蒸馏中的双向对数损失差异

本研究探讨了基于对数几率水平的大型语言模型任务特定蒸馏，发现与视觉模型相比，微调后的大型语言模型的对数几率呈现更极端的长尾分布，长尾部分中的噪声对蒸馏性能产生影响。提出了双向对数几率差异损失（BiLD loss）作为解决方案，并通过构建对数几率之间的差异来利用内部对数几率的排序信息。实验结果表明，仅使用前 8 个对数几率的 BiLD 损失优于有监督微调（SFT），基本 KL 损失和其他 NLP 和 CV 领域的五种蒸馏方法。

Jun, 2024

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM 是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。

Feb, 2024

预训练语言模型中的基于决策的知识蒸馏中决策和逻辑之间的桥梁

研究新的决策 KD 技术，从决策分布中估算出 logits，同时将理论和实验方法相结合，提高了自然语言理解和机器阅读理解性能。

Jun, 2023

基于标记比例的逻辑回归蒸馏用于三元权重生成语言模型

通过提出一种称为令牌缩放逻辑蒸馏的知识蒸馏方法，我们对大规模生成式语言模型进行了三值权重量化训练的首次评估，其中困惑度下降不到 1.0，推理任务并无准确性损失。

Aug, 2023

中间层蒸馏在压缩语言模型中的再次探讨：过拟合的角度

本文介绍了一种名为一致性正则化的中间层知识蒸馏方法，有效解决了其他中间层知识蒸馏方法容易过拟合的问题，并在模型蒸馏方面表现高效。

Feb, 2023

解耦式知识蒸馏

通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分，本文证明了 logit distillation 方法的潜在价值，并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用，从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。

Mar, 2022

知识蒸馏中的 Logit 标准化

知识蒸馏通过使用共享的基于温度的软最大函数，从教师向学生传递软标签。然而，教师和学生之间的温度共享假设意味着在 logit 的范围和方差方面需要强制精确匹配。为了解决这个问题，我们提出将温度设定为 logit 的加权标准差，并在应用 softmax 和 Kullback-Leibler 散度之前进行 Z 分数预处理标准化。我们的预处理使学生能够关注来自教师的基本 logit 关系而不需要幅值匹配，并且可以提高现有基于 logit 的蒸馏方法的性能。我们还展示了一个典型案例，即教师和学生之间传统的温度共享设置不能可靠地产生真实的蒸馏评估；尽管如此，我们的 Z 分数成功缓解了这个挑战。我们对 CIFAR-100 和 ImageNet 上的各种学生和教师模型进行了广泛评估，展示了其显著优越性。通过我们的预处理，纯知识蒸馏方法能够达到与最先进方法相当的性能，而其他蒸馏变体则可以在我们的预处理辅助下获得相当大的收益。

Mar, 2024

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

深入研究具有特征，逻辑和梯度的知识蒸馏

本文提供一种新视角，通过近似经典 KL 散度标准的不同知识源激励一组知识蒸馏策略，从而使模型压缩和渐进学习在知识源方面进行系统比较。分析结果表明，logits 通常是更有效的知识来源，并建议在模型设计方面具备足够的特征维度，从而为基于知识蒸馏的转移学习提供实用指南。

Mar, 2022