Oct, 2021

Pro-KD:跟随老师的足迹进行渐进式蒸馏

TL;DR本文介绍了一种名为 Progressive Knowledge Distillation 的技术,通过模仿教师模型的训练轨迹,改善了知识蒸馏中的 “容量差距问题”(capacity-gap problem)和 “检查点搜索问题”(checkpoint-search problem),在不同的任务(如图像分类、自然语言理解等)中,与最先进的技术相比,实验结果始终保持更好的表现。