准备教材: 利用更好的监督改进知识蒸馏
本文研究知识蒸馏的动态方法是否能根据学生模型的能力,对三个方面进行调整,包括教师模型的采用,数据选择和蒸馏目标的调整,实验结果表明,动态知识蒸馏是有前途的,并提供了关于更有效KD方法的未来方向的讨论。
Sep, 2021
研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
本文提出一种参数高效、学生友好的知识蒸馏方法PESF-KD,通过更新相对较少的参数,实现高效、充分的知识转移,其中引入了适配器模块,将教师的输出转化为合适平滑度的软标签。实验表明,与在线蒸馏方法相比,PESF-KD 能够显著降低培训成本,同时获得有竞争力的结果。
May, 2022
研究表明,利用动态先验知识的知识蒸馏方法可以更好地从大型模型向小型模型传递知识表示,提高学生模型的性能,在图像分类和目标检测等领域表现卓越。
Jun, 2022
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为TL + KD,并对它与传统TL的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本文提出了一种基于教师模型稍加简化后的知识表示的学生友好型知识蒸馏方法(SKD),其包含软化处理和学习简化器,通过联合训练确保知识简化过程与学生模型的训练目标相关,提高了训练效率和准确性。实验结果表明,该方法在CIFAR-100和ImageNet数据集上取得了最优性能。
May, 2023
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
Apr, 2024
知识蒸馏(KD)通过允许学生网络逐步学习从教师网络传输的知识来提高其性能。我们提出了一种基于强化学习的方法RLKD,将温度调整视为顺序决策任务,并设计了一种新颖的状态表示来使代理能够做出更明智的动作(即实例温度调整)。我们的方法解决了由于KD设置导致的延迟奖励问题,并采用了高效的探索策略。我们的框架可以轻松插入到各种KD方法中,并在图像分类和目标检测任务上验证了其有效性。
Jun, 2024