鲁棒主动蒸馏
该研究通过提出一种新的知识蒸馏目标,并利用一种被称为 “一致性” 的概念来选择前身模型作为教师,以减轻遗忘的知识。新的教师模型能够避免标签的遗忘,提高标记数据的不确定性 / 多样性,并弥补由人类注释器产生的有缺陷的标签。
Jan, 2022
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的 plug-in 估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实证验证,观察到与知识蒸馏增强相关的一致改进。
Apr, 2021
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。
Apr, 2022
本论文从统计角度阐述了知识蒸馏的原理,即让一个简单的 “学生” 模型依据一个复杂的 “教师” 模型得到的标签概率分布进行训练,从而提高性能,并提出了一种新颖的与极端多分类检索技术相关的方法。
May, 2020
本文提出一种参数高效、学生友好的知识蒸馏方法 PESF-KD,通过更新相对较少的参数,实现高效、充分的知识转移,其中引入了适配器模块,将教师的输出转化为合适平滑度的软标签。实验表明,与在线蒸馏方法相比,PESF-KD 能够显著降低培训成本,同时获得有竞争力的结果。
May, 2022
协作蒸馏(cooperative distillation)是一种新型的知识蒸馏方法,通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例,提供了一种有效的方式传递知识,用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法,还可以用于前述技术无法应用的情景。
Feb, 2024
本文研究知识蒸馏过程中,如何将教师神经网络的鲁棒性传递给学生神经网络,并提出一种称为 Adversarially Robust Distillation (ARD) 的方法。实验证明,采用 ARD 的学生模型在鲁棒性上的表现明显优于采用相同结构的敌对训练网络,并在标准鲁棒性基准测试中超越了当前最先进的方法。
May, 2019
本文提出了一种新的知识蒸馏方法,即分层蒸馏策略,用于解决推荐系统中已有的知识蒸馏方法中存在的推荐偏差问题。该方法通过对热门物品进行分层处理,提取每个组中的排名知识,用于监督学生模型的学习,避免了推荐结果的不准确和不公平。
Nov, 2022