Sep, 2021

RAIL-KD:随机中间层映射用于知识蒸馏

TL;DR通过随机选择教师模型中的中间层进行蒸馏,提出了一种新的中间层知识蒸馏方法 RAIL-KD,它可以改善传统的知识蒸馏方法,并提高学生模型的泛化能力,同时具有更低的计算成本。在 GLUE 任务和域外测试集上,RAIL-KD 方法表现优于其他同类方法。