教学助理在低预算场景中提高从不完美教师模型的知识蒸馏

ACLJun, 2024

教学助理在低预算场景中提高从不完美教师模型的知识蒸馏

Teaching-Assistant-in-the-Loop: Improving Knowledge Distillation from Imperfect Teacher Models in Low-Budget Scenarios

Yuhang Zhou, Wei Ai

TL;DR通过提出一个三组件框架，利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号，我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明，相较于没有任何信号进行微调的情况，我们提出的两阶段框架平均带来了 20.79% 左右的相对提升，适用于四个复杂推理任务。

Abstract

There is increasing interest in distilling task-specific knowledge from large language models (LLM) to smaller student models. Nonetheless, LLM distillation presents a dual challenge: 1) there is a high cost asso

distillation large language models student models signal types student training

发现论文，激发创造

依据学生的学习水平定制指导方案提升知识蒸馏

本文提出了一种名为 LGTM 的有效教师培训技术，该技术通过引入蒸馏影响概念来确定每个训练样本对学生泛化能力的影响，通过优先选择可能增强学生泛化能力的样本，在 GLUE 基准测试数据集的 6 项文本分类任务中，LGTM 比其他 10 种常见的知识蒸馏基线表现更好。

May, 2023

多教师助理指导的密集知识蒸馏

本文提出一种基于多个 teacher assistant 的密集引导知识蒸馏方法，通过逐渐减小模型大小有效地弥合 teacher 和 student 之间的巨大差距，实现了对 student 的更高效学习，并在 CIFAR-10、CIFAR-100 和 ImageNet 上的多个 backbone 架构中取得了显著的性能提升。

Sep, 2020

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

LLM 教育中的知识蒸馏

本研究提出了一种方法，将大型语言模型（LLMs）的知识提炼为一个更小、更高效且准确的神经网络，以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型，作为教师模型，通过专门设计的损失函数来学习 LLM 的输出概率，确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试，我们将性能与原始神经网络（NN）模型进行了比较，结果显示对于 7T 数据集，NN 模型和提炼的学生模型的准确率与教师模型相当；然而，其他数据集显示 NN 模型的准确率显著较低（平均 28%），然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外，学生模型的参数大小为 0.1M 至 0.02M，相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。

Dec, 2023

教辅辅助下的知识蒸馏改进

本论文针对深度神经网络过于庞大以至于不能部署在移动设备等边缘设备的问题，提出了一种基于知识蒸馏的网络压缩方法。然而，该论文表明，如果学生网络与教师网络之间的差距太大，那么知识蒸馏的性能会下降；为此，该论文提出了一种多步知识蒸馏的方法，通过使用一个中等大小的网络（即教师助手）来弥补学生与教师之间的差距，并通过对 CIFAR-10,100 和 ImageNet 数据集进行广泛的实验证明了该方法的有效性。

Feb, 2019

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

婴儿骆驼：从小数据集上训练的教师集合中进行知识蒸馏，无性能惩罚

我们提出了一种解决 BabyLM 挑战的方法，目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型，然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型，它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明，蒸馏不仅可以保持教师模型的全部性能，在后者被训练在足够小的数据集上时，还可以超过教师模型的性能，并且比直接训练要表现得更好。

Aug, 2023

教授应该教什么：一种基于数据的精华提取方法

该研究提出了一种名为 “Teaching what you Should Teach” 的策略，将其引入到知识蒸馏框架中。通过神经网络数据增强模块，该数据驱动蒸馏方法可以在查找适当的数据样本时帮助学生弥补其弱点，让学生成为全面优秀的人。此方法在目标识别、检测和分割任务上，通过详细的比较实验和探索性研究，证明它具有先进的性能和一定的推广能力。

Dec, 2022

鲁棒主动蒸馏

通过游戏论的形式，提供了一种无需超参数，能够同时提供准确且充分信息的软标签，从而显著提高了现有主动学习与主动知识蒸馏方法的效果。

Oct, 2022