Mar, 2023

知识蒸馏训练动态深入研究

TL;DR本文通过实验证明了正则化 (即 normalisation)、软最大值函数以及投影层是知识蒸馏的关键因素,并提出了一种简单的软最大函数来解决容量差异问题。实验结果表明,使用这些洞见可以实现与最先进的知识蒸馏技术相当或更好的性能,而且计算效率更高。