通过一系列的实验,我们发现知识蒸馏 (distillation) 在教师网络存在低置信度的点的时候,会使得学生网络的置信度更低,而之后引入知识蒸馏 (loss) 会恢复部分性能,同时我们提供了两种理论视角来理解这种现象,作为特征空间的正则化项和梯度去噪器。
Jan, 2023
该论文提出了一种基于知识蒸馏的对象检测模型微调方法,采用区域提议共享机制和自适应知识转移方法,根据模型的不同表现区分性能好坏,同时使用知识衰减策略帮助提高模型的泛化性能。实验结果表明,该方法在 COOC 数据集上取得了比基线模型更好的检测结果。
Jun, 2020
提出一种基于学生的教师网络训练框架 SoTeacher,通过引入 Lipschitz 正则化和一致性正则化改善知识蒸馏算法中教师网络的训练方法,实验证明该方法适用于几乎所有的教师 - 学生架构对,并且可以显著、一致地提高学生的性能。
Jun, 2022
对于计算和内存资源有限的感知系统,我们提出了一种简单但非常有效的序列化方法来通过知识蒸馏来提高轻量级分类模型的性能,并成功将基于 Transformer 的教师检测器的知识转化到基于卷积的学生检测器上,从而显著提升了 MS COCO 基准测试上 RetinaNet 和 Mask R-CNN 的性能。
Aug, 2023
本文提出了一种名为 DisWOT 的新方法,使用进化算法,在没有进行训练的情况下,以教师神经网络的相似度为依据来搜索出最优的学生神经网络结构,并且在知识蒸馏阶段大幅提高了模型性能。实验结果表明,该方法在不同的搜索空间中均取得了最先进的成果。
Mar, 2023
通过综合考虑分类和回归任务的重要性差异,在目标检测中提出了一种能够应对知识蒸馏中偏见预测问题的方法。
Apr, 2024
本文提出了一种基于迭代剪枝的新型无需任务特定指导的蒸馏方法 ——Homotopic Distillation(HomoDistil),旨在实现在小的计算成本和存储占用下,通过迁移知识来产生一个紧凑的预训练模型,并通过大量实验表明,与现有基线方法相比,HomoDistil 具有明显的优势。
Feb, 2023
本文提出了一种新的知识蒸馏方法 PTLoss,通过扰动 KL-based distillation loss function,将原始 teacher 转换为更接近 ground truth 的 proxy teacher,从而显著提高了知识蒸馏的效果。
May, 2023
本文基于课程学习的角度考虑知识蒸馏,使用路由的方式选取锚点进行监督,提出了一种路由约束优化算法 (RCO),实验证明这种简单的操作极大地降低了知识蒸馏、提示和模仿学习的一致性损失下限,可在 CIFAR100 和 ImageNet 上将知识蒸馏的性能分别提高 2.14%和 1.5%,并在 MegaFace 的开放式人脸识别任务上进行了评估。
Apr, 2019
本文介绍了一种名为 DIST 的方法,它可以更好地从一个更强的教师模型中进行知识蒸馏,通过保留教师和学生之间的预测关系,提出了基于相关损失的方法,从而实现了最先进的性能。
May, 2022