婴儿骆驼：从小数据集上训练的教师集合中进行知识蒸馏，无性能惩罚

Aug, 2023

婴儿骆驼：从小数据集上训练的教师集合中进行知识蒸馏，无性能惩罚

Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty

Inar Timiryasov, Jean-Loup Tastet

TL;DR我们提出了一种解决 BabyLM 挑战的方法，目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型，然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型，它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明，蒸馏不仅可以保持教师模型的全部性能，在后者被训练在足够小的数据集上时，还可以超过教师模型的性能，并且比直接训练要表现得更好。

Abstract

We present our proposed solution to the babylm challenge [arXiv:2301.11796], whose goal was to improve the sample efficiency of language models

babylm challenge language models sample efficiency ensemble distillation

发现论文，激发创造

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

LLM 教育中的知识蒸馏

本研究提出了一种方法，将大型语言模型（LLMs）的知识提炼为一个更小、更高效且准确的神经网络，以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型，作为教师模型，通过专门设计的损失函数来学习 LLM 的输出概率，确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试，我们将性能与原始神经网络（NN）模型进行了比较，结果显示对于 7T 数据集，NN 模型和提炼的学生模型的准确率与教师模型相当；然而，其他数据集显示 NN 模型的准确率显著较低（平均 28%），然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外，学生模型的参数大小为 0.1M 至 0.02M，相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。

Dec, 2023

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

大型语言模型蒸馏不需要教师

本文介绍了一种针对大型语言模型的任务无关的零样本评估蒸馏方法，该方法使用截断版本的大模型作为初始化，并使用语言建模目标继续预训练该模型，已从根本上解决了对任务特定学习数据的依赖。本方法可以在无法将教师和学生都放入 GPU 内存的情况下将模型尺寸有效减少 50％，并在 13 个零样本端到端任务上达到了与基准蒸馏方法相当或超越的性能和准确性，计算效率提高了 1.5 倍。

May, 2023

TinyLLM: 从多个大型语言模型中学习一个小型学生

通过知识蒸馏，从多个大型教师语言模型中学习小型学生语言模型 TinyLLM，以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题，并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境，从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性，结果表明尽管模型尺寸较小，但 TinyLLM 可显著优于大型教师语言模型。

Feb, 2024

混合蒸馏助于小型语言模型更好地进行推理

通过 Mixed Distillation 框架，将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中，提高较小模型的性能，优于传统蒸馏方法，并在多路径推理中实现了令人印象深刻的准确度表现。

Dec, 2023

关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究

我们提出了一种针对小模型的训练方法，不需要吸收预训练的成本，却能获得相同的性能，并且通过知识蒸馏与对比学习的连接，能够有效地降低计算成本，提高训练速度，同时通过数据增强进一步改善性能。

Apr, 2024

子目标蒸馏：提升小型语言代理的方法

通过层次化代理模型和知识蒸馏，将大型语言模型的性能通过转移学习到小型语言模型，在科学世界的多任务交互文本环境中胜过其他大型语言模型方法，从而提高了效率。

May, 2024