个性化蒸馏:为代码生成赋能开源 LLMs 的自适应学习
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020
该研究提出了一种新的对抗蒸馏框架,通过在知识传输过程中使用反馈循环来提高学生模型的性能,成功地从 ChatGPT 模型向 Lion 模型进行知识传输,从而建立开源指令跟随语言模型的基线。
May, 2023
通过 Mixed Distillation 框架,将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中,提高较小模型的性能,优于传统蒸馏方法,并在多路径推理中实现了令人印象深刻的准确度表现。
Dec, 2023
提出了一种创新的 Competitive Multi-modal Distillation(CoMD)框架,捕捉学生模型和教师模型之间的双向反馈,并不断更新学生模型学到的多模态能力,研究结果表明,我们的知识迁移方法在各种数据集上稳定提升了学生模型的能力,经过四次蒸馏后,7B 大小的学生模型在 ScienceQA 和 LLaVA Test 数据集上超过了当前最先进的 LLaVA-13B 模型,在零样本设置下也优于其他强基线模型。
Nov, 2023
我们提出了一种解决 BabyLM 挑战的方法,目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型,然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型,它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明,蒸馏不仅可以保持教师模型的全部性能,在后者被训练在足够小的数据集上时,还可以超过教师模型的性能,并且比直接训练要表现得更好。
Aug, 2023
本文提出了一种名为 LGTM 的有效教师培训技术,该技术通过引入蒸馏影响概念来确定每个训练样本对学生泛化能力的影响,通过优先选择可能增强学生泛化能力的样本,在 GLUE 基准测试数据集的 6 项文本分类任务中,LGTM 比其他 10 种常见的知识蒸馏基线表现更好。
May, 2023
本文介绍一种名为 “Distilling step-by-step” 的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注 / 非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习 LLM 的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于 7T 数据集,NN 模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示 NN 模型的准确率显著较低(平均 28%),然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外,学生模型的参数大小为 0.1M 至 0.02M,相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023
任务感知课程规划的指导下,使用动态难度调整的多轮精馏框架 TAPIR 提供平衡的任务分布,通过升级难度水平逐步提升学生 LLM 的能力,并经过两个广泛认可的基准测试验证,结果表明使用我们的方法及较少的训练数据训练的学生 LLMs 在复杂任务中(如逻辑推理和代码生成)优于较大的经过指导调整的模型和强大的精馏基准线。
May, 2024
通过 Explanation-Guided LLMs Active Distillation (ELAD) 框架,我们引入了一种主动学习策略,以优化注释成本与模型性能之间的平衡;通过利用解释步骤中的不确定性,我们改进了高效样本选择方法;此外,我们还提出了一种定制化的 LLMM - 注释解释修订技术,以检测和修正学生模型推理中的缺陷。我们在各种推理数据集上的实验证明,我们的框架显著提高了 LLMM 知识蒸馏的效率。
Feb, 2024