鲁棒主动蒸馏

Oct, 2022

Robust Active Distillation

Cenk Baykal, Khoa Trinh, Fotis Iliopoulos, Gaurav Menghani, Erik Vee

TL;DR通过游戏论的形式，提供了一种无需超参数，能够同时提供准确且充分信息的软标签，从而显著提高了现有主动学习与主动知识蒸馏方法的效果。

Abstract

Distilling knowledge from a large teacher model to a lightweight one is a widely successful approach for generating compact, powerful models in the semi-supervised learning setting where a limited amount of labeled data is available. In large-scale applications, however, the teacher te

knowledge distillation semi-supervised learning model compression active learning game theory

发现论文，激发创造

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

TrustAL: 使用知识蒸馏的可信主动学习

该研究通过提出一种新的知识蒸馏目标，并利用一种被称为 “一致性” 的概念来选择前身模型作为教师，以减轻遗忘的知识。新的教师模型能够避免标签的遗忘，提高标记数据的不确定性 / 多样性，并弥补由人类注释器产生的有缺陷的标签。

Jan, 2022

知识蒸馏作为半参数推断

使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的 plug-in 估计值，引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响，为标准蒸馏的预测误差提供了新的保证，并在表格式和图像数据上进行实证验证，观察到与知识蒸馏增强相关的一致改进。

Apr, 2021

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022

蒸馏为什么有用：一个统计学的视角

本论文从统计角度阐述了知识蒸馏的原理，即让一个简单的 “学生” 模型依据一个复杂的 “教师” 模型得到的标签概率分布进行训练，从而提高性能，并提出了一种新颖的与极端多分类检索技术相关的方法。

May, 2020

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

高效参数和适合学生的知识蒸馏

本文提出一种参数高效、学生友好的知识蒸馏方法 PESF-KD，通过更新相对较少的参数，实现高效、充分的知识转移，其中引入了适配器模块，将教师的输出转化为合适平滑度的软标签。实验表明，与在线蒸馏方法相比，PESF-KD 能够显著降低培训成本，同时获得有竞争力的结果。

May, 2022

合作式知识蒸馏：一种学生无关的方法

协作蒸馏（cooperative distillation）是一种新型的知识蒸馏方法，通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例，提供了一种有效的方式传递知识，用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法，还可以用于前述技术无法应用的情景。

Feb, 2024

对抗鲁棒蒸馏

本文研究知识蒸馏过程中，如何将教师神经网络的鲁棒性传递给学生神经网络，并提出一种称为 Adversarially Robust Distillation (ARD) 的方法。实验证明，采用 ARD 的学生模型在鲁棒性上的表现明显优于采用相同结构的敌对训练网络，并在标准鲁棒性基准测试中超越了当前最先进的方法。

May, 2019

无偏知识蒸馏推荐

本文提出了一种新的知识蒸馏方法，即分层蒸馏策略，用于解决推荐系统中已有的知识蒸馏方法中存在的推荐偏差问题。该方法通过对热门物品进行分层处理，提取每个组中的排名知识，用于监督学生模型的学习，避免了推荐结果的不准确和不公平。

Nov, 2022