该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
Apr, 2024
本研究探讨了知识蒸馏的三个不同层次 —— 宇宙,领域以及实例,发现这三个因素在知识蒸馏中起着重要作用,并在大量实证研究基础上,诊断了某些知识蒸馏应用失败的情况。
Feb, 2020
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将 CKD 原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD 始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023
本研究提出了一种名为 Residual Knowledge Distillation (RKD) 的知识蒸馏方法,通过引入辅助器来进一步提炼知识,从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题,并在 CIFAR-100 和 ImageNet 等流行分类数据集上取得优异的成果,超过了现有方法的最新水平。
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
提出了一种三元知识蒸馏 (TriKD) 机制,通过引入锚模型、在线知识传递和课程学习策略,可以有效地教授知识。该方法应用于图像分类和人脸识别中,结果表明了其有效性。
May, 2023
本文提出了一种基于教师模型稍加简化后的知识表示的学生友好型知识蒸馏方法(SKD),其包含软化处理和学习简化器,通过联合训练确保知识简化过程与学生模型的训练目标相关,提高了训练效率和准确性。实验结果表明,该方法在 CIFAR-100 和 ImageNet 数据集上取得了最优性能。
该论文提出了关系知识蒸馏方法(RKD),用于将数据示例之间的相互关系转移给学生模型,进而提高其在度量学习等任务中的性能,尤其是在标准基准数据集上取得了超越其老师的表现。
Apr, 2019
提出了一种名为 DR-KD 的简单而有效的知识蒸馏框架,通过在传统训练中动态调整目标来使学生变成自身的教师,并在蒸馏信息时进行错误更正,从而消除了笨重的教师模型的必要性,并在需要分类或对象识别的任何深度神经网络训练中均可使用,能够在不增加额外训练成本的情况下较其他知识蒸馏方法显著提高 Tiny ImageNet 测试准确性 2.65%。
Jan, 2022
本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法,通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型,从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证,包括图像分类和自然语言推理等。
Apr, 2021