Dec, 2023

稳定 KD:稳定知识蒸馏的跨区块优化解患

TL;DR知识蒸馏(KD)被认为是压缩和加速模型的有效工具。本文提出了稳定蒸馏(StableKD)框架,通过解决传统 KD 方法中的 Inter-Block Optimization Entanglement(IBOE)问题,实现更稳定的优化过程,并在实验证明该方法在模型精度、收敛速度和较少训练数据使用方面均有显著提升。