Oct, 2022

模型检查点的高效知识蒸馏

TL;DR本文研究知识蒸馏技术中,使用训练过程中的中间模型或快照集作为教师模型可以提高蒸馏效果,同时提出了一种基于任务相关互信息最大化的中间模型选择算法,并通过实验证明了其有效性和适用性。