本研究提出了两种新颖的方法,知识调整(KA)和动态温度蒸馏(DTD),用于惩罚错误监督并改善学生模型,实验表明该方法在各种评测数据集上,以及与其他基于知识蒸馏的方法相结合时,都能获得鼓舞人心的表现。
Nov, 2019
本文提出了一种自监督增强的任务,通过辅助分类器在分层中间特征图中生成多样化的自监督知识,并执行一对一的转移来全面教授学生网络,从而改善表示能力而不失去正常分类能力。在多个网络对中,本方法都显著超过了之前的最佳结果,平均改进了 2.56%(CIFAR-100)和 0.77%(ImageNet)。
Jul, 2021
本文提出了新型的知识蒸馏损失函数,其通过保留教师神经网络中相似输入的激活模式特征,指导学生神经网络的训练,使其在保留各自的表征空间中,能够准确地保持输入的相似度。实验结果表明了该方法的潜力。
Jul, 2019
本文提出一种新颖的知识蒸馏方法,该方法旨在学习对学生友好的教师模型以实现知识传递,并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。
Feb, 2021
本文提出了零数据知识迁移的方法,通过自动生成 Data Impressions 从而实现了基于 Teacher 模型的知识迁移,不需要获取原始数据,具有实用性和良好的泛化能力。
May, 2019
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法,近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等,致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。
Apr, 2023
提出了一种名为 DR-KD 的简单而有效的知识蒸馏框架,通过在传统训练中动态调整目标来使学生变成自身的教师,并在蒸馏信息时进行错误更正,从而消除了笨重的教师模型的必要性,并在需要分类或对象识别的任何深度神经网络训练中均可使用,能够在不增加额外训练成本的情况下较其他知识蒸馏方法显著提高 Tiny ImageNet 测试准确性 2.65%。
Jan, 2022
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
Apr, 2024
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023