May, 2023
不要盲目模仿老师:使用扰动损失进行知识蒸馏
Do Not Blindly Imitate the Teacher: Using Perturbed Loss for Knowledge
Distillation
TL;DR本文提出了一种新的知识蒸馏方法 PTLoss,通过扰动 KL-based distillation loss function,将原始 teacher 转换为更接近 ground truth 的 proxy teacher,从而显著提高了知识蒸馏的效果。