PLaD: 偏好基的大型语言模型压缩与伪优选对

ACLJun, 2024

PLaD: 偏好基的大型语言模型压缩与伪优选对

PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs

Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin...

TL;DR本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架，通过利用教师模型与学生模型之间的容量差异生成伪偏好对，使用排名损失重新校准学生模型对序列概率的估计，从而使学生模型更好地理解输出质量的相对优劣，而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。

Abstract

large language models (LLMs) have exhibited impressive capabilities in various tasks, yet their vast parameter sizes restrict their applicability in resource-constrained settings. knowledge distillation (KD) offe

large language models knowledge distillation plad preference-based llm distillation sequence generation

发现论文，激发创造

大型语言模型的直接偏好知识蒸馏

在大型语言模型领域，我们提出了 Direct Preference Knowledge Distillation (DPKD) 方法，通过利用分布差异来表示偏好损失和隐式奖励函数，将语言模型知识蒸馏分为两个阶段，并通过实验证明了其广泛适用性和有效性。同时，我们通过实验和理论分析证明了引入的隐式奖励和输出偏好在知识蒸馏中的价值和效果，DPKD 方法在输出响应精度和完全匹配百分比上优于基准方法。

Jun, 2024

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM 是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。

Feb, 2024

大型语言模型的对抗性矩匹配蒸馏

通过匹配教师行为的行动 - 价值矩关系，我们提出了一种对大型语言模型进行知识蒸馏的模仿学习策略，使用对抗训练算法来同时估计行动 - 价值矩距离并优化学生模型的政策，以此最小化距离，并在任务无关和任务特定实验中取得了新的最优性能。

Jun, 2024

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

终身语言知识蒸馏

提出了一种名为 Lifelong Language Knowledge Distillation（L2KD）的方法来解决流式任务（stream of different tasks） LLL 中的性能降低问题，通过一个教师模型来将新任务的知识通过知识蒸馏的方式传递给现有的 LLL 模型，从而使得 LLL 模型可以更好地适应新任务，同时保留先前学习到的知识。该方法的实验证明，L2KD 在 LLL 任务的顺序生成和文本分类方面比之前的最先进模型有着不俗的表现，并且在与 multi-task 模型性能对比方面，L2KD 均获得了显著提升。

Oct, 2020

ELAD：解释引导的大型语言模型主动蒸馏

通过 Explanation-Guided LLMs Active Distillation (ELAD) 框架，我们引入了一种主动学习策略，以优化注释成本与模型性能之间的平衡；通过利用解释步骤中的不确定性，我们改进了高效样本选择方法；此外，我们还提出了一种定制化的 LLMM - 注释解释修订技术，以检测和修正学生模型推理中的缺陷。我们在各种推理数据集上的实验证明，我们的框架显著提高了 LLMM 知识蒸馏的效率。

Feb, 2024

大型语言模型的双空间知识蒸馏

通过提出双空间知识蒸馏 (DSKD) 框架，我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题，并进一步开发了跨模型注意力机制，支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明，DSKD 在各种距离函数下显著优于当前白盒知识蒸馏框架，并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。

Jun, 2024

多阶段均衡蒸馏：解决序列级知识蒸馏中的长尾挑战

大语言模型（LLMs）在各种自然语言处理任务中有了显著的进展，但部署仍然需要大量的计算资源。我们介绍了一种名为 Multi-Stage Balanced Distillation（BalDistill）的框架，通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本，平衡训练数据，并在各种长尾数据集上取得了最先进的性能，提高了蒸馏模型的效率和效果。

Jun, 2024

PaD: 通过程序辅助精馏专门针对推理的大型模型

提出了 Program-aided Distillation（PaD）算法，该算法使用程序辅助推理强化可特化的模型，并通过自动化错误检查帮助它们克服错误的推理步骤，实验证明 PaD 具有比 LLMs 更高的训练效率，并能显著提高推理能力。

May, 2023