May, 2023

不要盲目模仿老师:使用扰动损失进行知识蒸馏

TL;DR本文提出了一种新的知识蒸馏方法 PTLoss,通过扰动 KL-based distillation loss function,将原始 teacher 转换为更接近 ground truth 的 proxy teacher,从而显著提高了知识蒸馏的效果。