ELAD：解释引导的大型语言模型主动蒸馏

Feb, 2024

ELAD：解释引导的大型语言模型主动蒸馏

ELAD: Explanation-Guided Large Language Models Active Distillation

Yifei Zhang, Bo Pan, Chen Ling, Yuntong Hu, Liang Zhao

TL;DR通过 Explanation-Guided LLMs Active Distillation (ELAD) 框架，我们引入了一种主动学习策略，以优化注释成本与模型性能之间的平衡；通过利用解释步骤中的不确定性，我们改进了高效样本选择方法；此外，我们还提出了一种定制化的 LLMM - 注释解释修订技术，以检测和修正学生模型推理中的缺陷。我们在各种推理数据集上的实验证明，我们的框架显著提高了 LLMM 知识蒸馏的效率。

Abstract

The deployment and application of large language models (LLMs) is hindered by their memory inefficiency, computational demands, and the high costs of API inferences. Traditional distillation methods, which transf

large language models distillation methods active learning strategy explanation-guided sample selection llm knowledge distillation

发现论文，激发创造

运用大型语言模型和主动学习演化知识蒸馏

提出了 EvoKD：演化知識蒸餾方法，利用主動學習的概念提升大型語言模型的數據生成過程，同時改善小型領域模型的任務能力。實驗和分析表明 EvoKD 在不同的自然語言處理任務，如文本分類和命名實體識別方面具有有效性。

Mar, 2024

PaD: 通过程序辅助精馏专门针对推理的大型模型

提出了 Program-aided Distillation（PaD）算法，该算法使用程序辅助推理强化可特化的模型，并通过自动化错误检查帮助它们克服错误的推理步骤，实验证明 PaD 具有比 LLMs 更高的训练效率，并能显著提高推理能力。

May, 2023

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

LLM 教育中的知识蒸馏

本研究提出了一种方法，将大型语言模型（LLMs）的知识提炼为一个更小、更高效且准确的神经网络，以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型，作为教师模型，通过专门设计的损失函数来学习 LLM 的输出概率，确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试，我们将性能与原始神经网络（NN）模型进行了比较，结果显示对于 7T 数据集，NN 模型和提炼的学生模型的准确率与教师模型相当；然而，其他数据集显示 NN 模型的准确率显著较低（平均 28%），然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外，学生模型的参数大小为 0.1M 至 0.02M，相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。

Dec, 2023

子目标蒸馏：提升小型语言代理的方法

通过层次化代理模型和知识蒸馏，将大型语言模型的性能通过转移学习到小型语言模型，在科学世界的多任务交互文本环境中胜过其他大型语言模型方法，从而提高了效率。

May, 2024

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

PLaD: 偏好基的大型语言模型压缩与伪优选对

本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架，通过利用教师模型与学生模型之间的容量差异生成伪偏好对，使用排名损失重新校准学生模型对序列概率的估计，从而使学生模型更好地理解输出质量的相对优劣，而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。

Jun, 2024

利用零射击提示进行高效的语言模型蒸馏

本文介绍了一种新颖的方法，可以将 LLMs 高效地提炼成更小的、面向特定应用的模型，显著降低运营成本和人工劳动。该方法利用 LLMs 的推理能力为无标签数据生成标签和自然语言解释，从而在有限数据和计算资源情况下增强模型的微调和提炼效果。其中关键贡献包括使用零样本提示获取教师模型的解释，减少手工制作的小样本示例的需求，并降低令牌数，这直接转化为主要技术公司 LLM API 的按令牌计费模式下的成本节约。此外，本文还研究了解释特性对提炼效率的影响，并证明了即使在整个数据集上未应用理由增强时也几乎不会导致性能损失，从而进一步减少了令牌数量。这项研究是朝向最小化人工干预、高效训练特定任务模型的一步，提供了大幅降低成本并保持甚至增强性能的可能性。

Mar, 2024

GOLD: 通过基于超出分布引导的语言数据生成进行的泛化知识蒸馏

基于语言模型的知识蒸馏是提高语言模型的有效部署的关键。本文提出了 GOLD，一种任务无关的数据生成和知识蒸馏框架，通过迭代的超出分布引导的反馈机制来改善生成数据的泛化能力。我们在 10 个不同的分类和序列到序列任务的自然语言处理方面的广泛实验中验证了 GOLD 的优越性和对 less explored 和 novel 任务的适用性。

Mar, 2024

混合蒸馏助于小型语言模型更好地进行推理

通过 Mixed Distillation 框架，将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中，提高较小模型的性能，优于传统蒸馏方法，并在多路径推理中实现了令人印象深刻的准确度表现。

Dec, 2023