个性化蒸馏：为代码生成赋能开源 LLMs 的自适应学习

EMNLPOct, 2023

个性化蒸馏：为代码生成赋能开源 LLMs 的自适应学习

Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation

Hailin Chen, Amrita Saha, Steven Hoi, Shafiq Joty

TL;DR通过个性化蒸馏的方式，我们在代码生成方面取得了显著的进展，仅使用 1/3 的数据就能提升性能，并且通过 2.5-3K 的个性化示例，带来 4-6 美元的数据收集成本，使 CodeGen-mono-16B 模型 pass@1 达到 36.4％，StarCoder 模型 pass@1 达到 45.8％。

Abstract

With the rise of powerful closed-sourced llms (ChatGPT, GPT-4), there are increasing interests in distilling the capabilies of close-sourced llms to smaller open-sourced →

llms distillation personalised learning code generation data-collection cost

发现论文，激发创造

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

Lion：闭源大型语言模型对抗蒸馏

该研究提出了一种新的对抗蒸馏框架，通过在知识传输过程中使用反馈循环来提高学生模型的性能，成功地从 ChatGPT 模型向 Lion 模型进行知识传输，从而建立开源指令跟随语言模型的基线。

May, 2023

混合蒸馏助于小型语言模型更好地进行推理

通过 Mixed Distillation 框架，将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中，提高较小模型的性能，优于传统蒸馏方法，并在多路径推理中实现了令人印象深刻的准确度表现。

Dec, 2023

释放力量：多模态大型语言模型的竞争蒸馏

提出了一种创新的 Competitive Multi-modal Distillation（CoMD）框架，捕捉学生模型和教师模型之间的双向反馈，并不断更新学生模型学到的多模态能力，研究结果表明，我们的知识迁移方法在各种数据集上稳定提升了学生模型的能力，经过四次蒸馏后，7B 大小的学生模型在 ScienceQA 和 LLaVA Test 数据集上超过了当前最先进的 LLaVA-13B 模型，在零样本设置下也优于其他强基线模型。

Nov, 2023

婴儿骆驼：从小数据集上训练的教师集合中进行知识蒸馏，无性能惩罚

我们提出了一种解决 BabyLM 挑战的方法，目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型，然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型，它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明，蒸馏不仅可以保持教师模型的全部性能，在后者被训练在足够小的数据集上时，还可以超过教师模型的性能，并且比直接训练要表现得更好。

Aug, 2023

依据学生的学习水平定制指导方案提升知识蒸馏

本文提出了一种名为 LGTM 的有效教师培训技术，该技术通过引入蒸馏影响概念来确定每个训练样本对学生泛化能力的影响，通过优先选择可能增强学生泛化能力的样本，在 GLUE 基准测试数据集的 6 项文本分类任务中，LGTM 比其他 10 种常见的知识蒸馏基线表现更好。

May, 2023

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

LLM 教育中的知识蒸馏

本研究提出了一种方法，将大型语言模型（LLMs）的知识提炼为一个更小、更高效且准确的神经网络，以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型，作为教师模型，通过专门设计的损失函数来学习 LLM 的输出概率，确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试，我们将性能与原始神经网络（NN）模型进行了比较，结果显示对于 7T 数据集，NN 模型和提炼的学生模型的准确率与教师模型相当；然而，其他数据集显示 NN 模型的准确率显著较低（平均 28%），然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外，学生模型的参数大小为 0.1M 至 0.02M，相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。

Dec, 2023

用任务感知课程计划对大型语言模型进行指令遵循能力提炼

任务感知课程规划的指导下，使用动态难度调整的多轮精馏框架 TAPIR 提供平衡的任务分布，通过升级难度水平逐步提升学生 LLM 的能力，并经过两个广泛认可的基准测试验证，结果表明使用我们的方法及较少的训练数据训练的学生 LLMs 在复杂任务中（如逻辑推理和代码生成）优于较大的经过指导调整的模型和强大的精馏基准线。

May, 2024

ELAD：解释引导的大型语言模型主动蒸馏

通过 Explanation-Guided LLMs Active Distillation (ELAD) 框架，我们引入了一种主动学习策略，以优化注释成本与模型性能之间的平衡；通过利用解释步骤中的不确定性，我们改进了高效样本选择方法；此外，我们还提出了一种定制化的 LLMM - 注释解释修订技术，以检测和修正学生模型推理中的缺陷。我们在各种推理数据集上的实验证明，我们的框架显著提高了 LLMM 知识蒸馏的效率。

Feb, 2024