大型语言模型的直接偏好知识蒸馏

Jun, 2024

大型语言模型的直接偏好知识蒸馏

Direct Preference Knowledge Distillation for Large Language Models

Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng...

TL;DR在大型语言模型领域，我们提出了 Direct Preference Knowledge Distillation (DPKD) 方法，通过利用分布差异来表示偏好损失和隐式奖励函数，将语言模型知识蒸馏分为两个阶段，并通过实验证明了其广泛适用性和有效性。同时，我们通过实验和理论分析证明了引入的隐式奖励和输出偏好在知识蒸馏中的价值和效果，DPKD 方法在输出响应精度和完全匹配百分比上优于基准方法。

Abstract

In the field of large language models (LLMs), knowledge distillation (KD) is a critical technique for transferring capabilities from teacher mode

large language models knowledge distillation dpkd implicit reward function teacher models

发现论文，激发创造

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

大型语言模型的双空间知识蒸馏

通过提出双空间知识蒸馏 (DSKD) 框架，我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题，并进一步开发了跨模型注意力机制，支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明，DSKD 在各种距离函数下显著优于当前白盒知识蒸馏框架，并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。

Jun, 2024

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM 是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。

Feb, 2024

PLaD: 偏好基的大型语言模型压缩与伪优选对

本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架，通过利用教师模型与学生模型之间的容量差异生成伪偏好对，使用排名损失重新校准学生模型对序列概率的估计，从而使学生模型更好地理解输出质量的相对优劣，而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。

Jun, 2024

大型语言模型的知识蒸馏调查

知识蒸馏（KD）机制在大型语言模型（LLM）中起着关键作用，将专有的 GPT-4 等模型的先进功能和细腻理解传输到像 LLaMA 和 Mistral 这样的开源模型。此次调查详细讨论了 KD 机制、特定认知能力增强以及其在不同领域的实际应用，展示了数据增广（DA）和 KD 之间的相互关系，旨在弥合专有和开源 LLM 之间的差距，促进更具可访问性、高效性和可持续性的人工智能解决方案。

Feb, 2024

预训练语言模型的梯度知识蒸馏

本文提出了一种新的知识蒸馏方法（GKD），通过引入梯度对齐这一重要的知识源，以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明，使用 GKD 比先前的知识蒸馏方法效果更好。

Nov, 2022

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

PromptKD：通过提示调整深度语言模型来提供适合学生的知识

最近大型语言模型（LLMs）的进展引发了对推断成本的担忧，加大了对模型压缩研究的需求。尽管知识蒸馏（KD）是一种突出的方法，但对于生成性语言模型（如 LLMs）的 KD 研究相对较少，而在分类模型的 KD 中表现出有希望的学生友好知识蒸馏方法在生成性语言模型中尚未被探索。为了探索这种方法，我们提出了 PromptKD，一种简单而有效的方法，利用首次使用的提示调整方法在 KD 中实现生成性语言模型的学生友好知识转移。与需要对整个教师模型进行微调以提取学生友好知识的分类作品不同，PromptKD 通过添加少量的提示符令牌并仅调整提示来实现类似效果，并在学生的指导下进行。在使用 GPT-2 模型系列对遵循指令的数据集进行的广泛实验表明，PromptKD 实现了最先进的性能，并且仅添加了教师参数的 0.0007％作为提示。进一步的分析表明，蒸馏学生友好的知识有效地减轻了整个训练过程中的曝光偏差，从而提高了性能。

Feb, 2024

神经语言模型的一致性蒸馏架构

本研究探讨了一种 Knowledge Distillation 的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能，同时在 Plagiarism Detection 方面也有了更好的表现。

Jan, 2023

预训练语言模型的动态知识蒸馏

本文研究知识蒸馏的动态方法是否能根据学生模型的能力，对三个方面进行调整，包括教师模型的采用，数据选择和蒸馏目标的调整，实验结果表明，动态知识蒸馏是有前途的，并提供了关于更有效 KD 方法的未来方向的讨论。

Sep, 2021