Mar, 2022

深入研究具有特征,逻辑和梯度的知识蒸馏

TL;DR本文提供一种新视角,通过近似经典 KL 散度标准的不同知识源激励一组知识蒸馏策略,从而使模型压缩和渐进学习在知识源方面进行系统比较。分析结果表明,logits 通常是更有效的知识来源,并建议在模型设计方面具备足够的特征维度,从而为基于知识蒸馏的转移学习提供实用指南。