自适应显式知识转移用于知识蒸馏
本文提出了一种新的知识蒸馏方法,通过建模教师模型各层之间的信息流,训练学生模型来模拟信息流。该方法通过适当的监督方案解决了训练过程中不同阶段的监管问题,并设计和训练了一个适当的辅助教师模型,作为一种代理模型,能够“解释”教师的工作方式给学生。实验证明该方法对于四个图像数据集和多种不同的评估设置均有效。
May, 2020
研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分,本文证明了 logit distillation 方法的潜在价值,并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用,从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。
Mar, 2022
本文提供一种新视角,通过近似经典KL散度标准的不同知识源激励一组知识蒸馏策略,从而使模型压缩和渐进学习在知识源方面进行系统比较。分析结果表明,logits通常是更有效的知识来源,并建议在模型设计方面具备足够的特征维度,从而为基于知识蒸馏的转移学习提供实用指南。
Mar, 2022
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为TL + KD,并对它与传统TL的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
我们提出了一种名为知识解释蒸馏(KED)的框架,通过引入超特征解释教师,允许学生不仅从教师的预测中学习,还从教师的解释中学习,以及使用卷积神经网络降低复杂性、隐藏表示蒸馏方法扩充和使用嵌套数据集来处理有限的训练数据,实验证明,KED学生可以显著优于类似复杂度的KD学生。
Oct, 2023
通过共享分类器实现自适应教学的知识蒸馏方法(ATSC),能够在网络参数数量仅略有增加的情况下,显著提升学生网络的性能,并在单教师和多教师场景下,在CIFAR-100和ImageNet数据集上实现了最先进的结果。
Jun, 2024
本文解决了基于logit的知识蒸馏在分类任务中性能较差的问题。提出了一种新损失函数,使学生模型能够适应性地学习显性知识和隐性知识,同时分离分类与蒸馏任务以增强模型效果。实验证明,该适应性显性知识转移方法在CIFAR-100和ImageNet数据集上超越了现有的知识蒸馏技术。
Sep, 2024
本研究关注知识蒸馏中的知识传递问题,提出通过统一的知识蒸馏框架整合不同知识源,解决现有方法的局限。论文的关键见解在于将中间层特征聚合为综合表示,并利用这一表示预测分布参数,从而确保知识传递的全面性与一致性。实验结果表明,该方法有效提升了知识蒸馏的效果,具有显著的潜在影响。
Sep, 2024