Oct, 2021
Pro-KD:跟随老师的足迹进行渐进式蒸馏
Pro-KD: Progressive Distillation by Following the Footsteps of the Teacher
Mehdi Rezagholizadeh, Aref Jafari, Puneeth Salad, Pranav Sharma, Ali Saheb Pasand...
TL;DR本文介绍了一种名为 Progressive Knowledge Distillation 的技术,通过模仿教师模型的训练轨迹,改善了知识蒸馏中的 “容量差距问题”(capacity-gap problem)和 “检查点搜索问题”(checkpoint-search problem),在不同的任务(如图像分类、自然语言理解等)中,与最先进的技术相比,实验结果始终保持更好的表现。