大型语言模型的对抗性矩匹配蒸馏

Jun, 2024

大型语言模型的对抗性矩匹配蒸馏

Adversarial Moment-Matching Distillation of Large Language Models

Chen Jia

TL;DR通过匹配教师行为的行动 - 价值矩关系，我们提出了一种对大型语言模型进行知识蒸馏的模仿学习策略，使用对抗训练算法来同时估计行动 - 价值矩距离并优化学生模型的政策，以此最小化距离，并在任务无关和任务特定实验中取得了新的最优性能。

Abstract

knowledge distillation (KD) has been shown to be highly effective in guiding a student model with a larger teacher model and achieving practical benefits in improving the computational and memory efficiency for large la

knowledge distillation large language models imitation learning adversarial training state-of-the-art performance

发现论文，激发创造

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM 是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。

Feb, 2024

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

自回归语言模型的知识蒸馏再探讨

通过分析发现大型语言模型在教学学生模型时会导致性能下降，设计了一种自适应教学方法（ATKD）来改进知识蒸馏，并通过大量实验验证其在各种模型类型和规模上均能显著提高性能（平均得分增加至多 + 3.04%）。更重要的是，ATKD 能有效改善学生模型的泛化能力。

Feb, 2024

大型语言模型的直接偏好知识蒸馏

在大型语言模型领域，我们提出了 Direct Preference Knowledge Distillation (DPKD) 方法，通过利用分布差异来表示偏好损失和隐式奖励函数，将语言模型知识蒸馏分为两个阶段，并通过实验证明了其广泛适用性和有效性。同时，我们通过实验和理论分析证明了引入的隐式奖励和输出偏好在知识蒸馏中的价值和效果，DPKD 方法在输出响应精度和完全匹配百分比上优于基准方法。

Jun, 2024

MATE-KD: 掩码对抗性文本 —— 知识蒸馏的伴侣

本文介绍一种名为 MATE-KD 的新型对抗训练算法，可改善知识蒸馏的性能，本文的算法在自然语言处理中的应用表现优秀，尤其在关键性能测试（GLUE benchmark）中。

May, 2021

大型语言模型的双空间知识蒸馏

通过提出双空间知识蒸馏 (DSKD) 框架，我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题，并进一步开发了跨模型注意力机制，支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明，DSKD 在各种距离函数下显著优于当前白盒知识蒸馏框架，并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。

Jun, 2024

PLaD: 偏好基的大型语言模型压缩与伪优选对

本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架，通过利用教师模型与学生模型之间的容量差异生成伪偏好对，使用排名损失重新校准学生模型对序列概率的估计，从而使学生模型更好地理解输出质量的相对优劣，而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。

Jun, 2024

自适应多教师多层级知识蒸馏

我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法，该方法通过将每个教师与潜在表示相关联，自适应地学习实例级教师重要性权重，从而获取集成的高级知识，并通过多组提示策略从多个教师处汇集中间级知识。实验表明，该方法确保学生比强竞争者取得了更好的性能。

Mar, 2021

无数据对抗蒸馏

该研究提出一种新的对抗蒸馏机制，用于在没有真实数据的情况下制作紧凑的学生模型，这种数据免费的方法在分类和语义分割中表现出与基于数据驱动的方法相当的性能甚至更好。

Dec, 2019