序列级知识蒸馏的f-分歧最小化

Jul, 2023

f-Divergence Minimization for Sequence-Level Knowledge Distillation

Yuqiao Wen, Zichao Li, Wenyu Du, Lili Mou

TL;DR我们提出了一个名为f-DISTILL的框架，将序列级别的知识蒸馏作为最小化广义f-分歧函数的过程，并显示现有的SeqKD和ENGINE方法是我们f-DISTILL方法的近似。通过在四个数据集上的实验，我们发现我们的方法优于现有的蒸馏方法，并且我们的对称蒸馏损失可以更好地促使学生从教师分布中学习。

Abstract

knowledge distillation (KD) is the process of transferring knowledge from a large model to a small one. It has gained increasing attention in the natural language processing community, driven by the demands of compressing ever-growing language models. In this work, we propose an

发现论文，激发创造

减小词汇量的俄语语言模型知识蒸馏

该研究论文介绍了知识蒸馏的不同方法，其中包括对词汇表的缩减，以助于通过两种简单而有效的对齐技术，对具有简化词汇表的学生进行知识蒸馏，并证明这些技术可以在保持一定质量的情况下实现17倍至49倍的压缩。

May, 2022

预训练语言模型的梯度知识蒸馏

本文提出了一种新的知识蒸馏方法（GKD），通过引入梯度对齐这一重要的知识源，以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明，使用GKD比先前的知识蒸馏方法效果更好。

Nov, 2022

大型语言模型的知识蒸馏

本文提出了一种名为MiniLLM的方法，该方法利用Kullback-Leibler散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了MiniLLM模型的性能表现更佳。

Jun, 2023

针对自回归序列模型的广义知识蒸馏

本论文提出了一种推广的知识蒸馏方法，旨在解决在训练和生成阶段输出序列之间的差异，并通过优化替代的发散方法来处理模型不充分的问题。实验证明，Generalized Knowledge Distillation (GKD) 在压缩生成语言模型时表现优异。

Jun, 2023

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的Kullback-Leibler散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高4.3倍的加速比。

Feb, 2024

Sinkhorn距离最小化的知识蒸馏

通过Sinkhorn知识蒸馏方法，克服了传统教师-学生模式中Kullback-Leibler散度的模型坍缩、反Kullback-Leibler散度的模型平均以及Jensen-Shannon散度的模型低估等问题，有效地压缩大型语言模型并在多样的自然语言处理任务中取得了优越性能。

Feb, 2024

对大型语言模型的知识蒸馏中库尔巴克-莱布勒散度的重新思考

通过实证和理论证明，逆向Kullback-Leiber（RKL）分散度在大语言模型知识蒸馏中并非寻找模式而是均值寻找，与前向Kullback-Leiber（FKL）优化目标相同，经过足够多的迭代后二者收敛。基于实践约束，提出了一种简单而有效的自适应Kullback-Leiber（AKL）分散度方法，可以根据情况分配权重来结合FKL和RKL，根据评估结果显示，该方法在多个任务上优于基准，并提高生成回答的多样性和质量。

Apr, 2024

多阶段均衡蒸馏：解决序列级知识蒸馏中的长尾挑战

大语言模型（LLMs）在各种自然语言处理任务中有了显著的进展，但部署仍然需要大量的计算资源。我们介绍了一种名为Multi-Stage Balanced Distillation（BalDistill）的框架，通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本，平衡训练数据，并在各种长尾数据集上取得了最先进的性能，提高了蒸馏模型的效率和效果。

Jun, 2024

大型语言模型的双空间知识蒸馏

通过提出双空间知识蒸馏 (DSKD) 框架，我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题，并进一步开发了跨模型注意力机制，支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明，DSKD在各种距离函数下显著优于当前白盒知识蒸馏框架，并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。

Jun, 2024

大型语言模型的知识蒸馏综述：方法、评估与应用

这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查，将方法分为白盒知识蒸馏和黑盒知识蒸馏，并探讨了不同蒸馏方法之间的评估任务和蒸馏效果，并提出了未来研究的方向。通过深入了解最新进展和实际应用，这篇综述为研究人员提供了有价值的资源，为这一领域的持续进展铺平了道路。

Jul, 2024