BriefGPT.xyz
Mar, 2023
知识蒸馏训练动态深入研究
A closer look at the training dynamics of knowledge distillation
HTML
PDF
Roy Miles, Krystian Mikolajczyk
TL;DR
本文通过实验证明了正则化(即normalisation)、软最大值函数以及投影层是知识蒸馏的关键因素,并提出了一种简单的软最大函数来解决容量差异问题。实验结果表明,使用这些洞见可以实现与最先进的知识蒸馏技术相当或更好的性能,而且计算效率更高。
Abstract
In this paper we revisit the efficacy of
knowledge distillation
as a
function matching
and
metric learning
problem. In doing so we verify
→