在知识蒸馏过程中,我们发现即使学生和老师具有相同的特征维度,添加投影器仍然有助于提高蒸馏性能,并且投影器在体系结构中的添加甚至可以改善逻辑蒸馏。受到这些令人惊讶的发现和现有文献对知识蒸馏过程中投影器角色的不了解的启发,本文研究了被忽视的投影器的隐含作用。通过经验研究,我们发现具有投影器的学生与没有投影器的学生相比,可以在训练精度和测试精度之间获得更好的平衡,从 Centered Kernel Alignment (CKA) 的视角来看,其相似性与老师相比更好地保持,并且避免了测试阶段老师的过度自信。受到投影器积极影响的启发,我们提出了一种基于投影器集合的特征蒸馏方法以进一步提高蒸馏性能。尽管所提出的策略简单,但在基准数据集上进行的分类任务的实证结果显示了我们方法在广泛范围的师生对上具有优越的分类性能,并从 CKA 和模型校准的角度验证了学生特征的质量改进。
Oct, 2023
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。
Apr, 2022
本文提出了一种基于特征嵌入的新型教师 - 学生模型,使用局部保持损失函数优化低维特征生成,从而避免引入额外参数,通过实验证明该方法计算和存储复杂度均优于现有教师 - 学生模型。
Dec, 2018
通过使用反向投影的简单修改,我们提出了一种针对跨任务设置的知识蒸馏方法,能够有效处理不同任务之间的教师和学生模型,在没有额外成本的情况下,在跨任务设置下相比传统投影获得了高达 1.9%的改进。此外,我们还使用反向投影进行了分析,提出了一种新的正则化损失函数,使得在 ImageNet 上的无教师蒸馏性能提升高达 8.57%,且无需额外的训练成本。
Mar, 2024
本文提出一种利用基于注意力的元网络来实现特征蒸馏的方法,该方法在不手动选择链接的情况下有效地控制了所有可能的特征对的蒸馏强度,从而提供了更好的模型压缩和迁移学习任务的性能。
Feb, 2021
本文通过实验证明了正则化 (即 normalisation)、软最大值函数以及投影层是知识蒸馏的关键因素,并提出了一种简单的软最大函数来解决容量差异问题。实验结果表明,使用这些洞见可以实现与最先进的知识蒸馏技术相当或更好的性能,而且计算效率更高。
Mar, 2023
本论文提出了一种名为 DiffKD 的新型知识蒸馏方法,其基于扩散模型显式去噪和匹配特征,以更好地实现精简干净特征和教师特征的蒸馏。在图像分类、对象检测和语义分割任务中,DiffKD 在各种特征类型上均取得了最先进的性能。
May, 2023
本文研究了特征蒸馏方法在网络压缩中的设计问题,并提出了一种新的特征蒸馏方法,其中蒸馏损失的设计使各个方面之间产生协同效应:老师变换,学生变换,蒸馏特征位置和距离函数。该方法在图像分类、目标检测和语义分割等多个任务中实现了显著的性能提升。
Apr, 2019
本文研究了一种改进模型压缩方法,通过强化学习动态调整知识蒸馏中教师模型的权重,从而提高了学生模型性能,适用于自然语言处理任务。
Dec, 2020