在线知识蒸馏的同行协作学习
通过独立的教师生成在线知识蒸馏的分离知识,以增加网络之间的差异性和降低模型崩溃的可能性,并采用衰减集成方案来提高教师的监督韧性。通过对 CIFAR-10、CIFAR-100 和 TinyImageNet 的广泛实验验证了我们方法的优越性,并进行了消融研究和进一步分析来证明其有效性。
Dec, 2023
本文提出了一种双层蒸馏网络框架 OKDDip,其中包括多个辅助对等体和一个领导群体,辅助对等体通过注意力机制获取自己的预测目标,来作为组群内部的目标进行蒸馏学习,然后再将知识传递给领导群体,实现知识转移。实验结果表明,该框架在训练或推理复杂度上不会牺牲性能,相较于现有方法,可以提供更好的蒸馏效果。
Dec, 2019
本文研究使用在线知识蒸馏方法,提出了一种 On-the-fly Native Ensemble (ONE) 策略,通过构建强大的 teacher 来提高目标网络的学习,该方法在多种深度神经网络上性能明显优于其他方法,并具有计算效率优势。
Jun, 2018
协作蒸馏(cooperative distillation)是一种新型的知识蒸馏方法,通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例,提供了一种有效的方式传递知识,用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法,还可以用于前述技术无法应用的情景。
Feb, 2024
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。
Apr, 2022
本篇论文提出了深度相互学习策略,其中不是单向从预定义的教师到学生的转移,而是学生网络共同学习和互相教学。通过实验,证明了许多网络架构受益于相互学习,并在 CIFAR-100 识别和 Market-1501 联系人重新识别基准测试中取得了令人信服的结果。
Jun, 2017
该论文研究类别不平衡问题,提出基于比较两个分类器预测结果的重新加权蒸馏损失,以改善专家之间的知识转移不平衡问题,并结合对比代理任务支路实现特征质量的进一步提升,实验表明所构建模型达到了最优性能。
May, 2023