May, 2023

VanillaKD: 从小规模到大规模重返纯净知识蒸馏的威力

TL;DR本文发现了先前知识蒸馏方法中存在的小数据陷阱并证明了对于大规模数据集,纯粹的知识蒸馏框架可以用更强的数据增强技术和使用更大的数据集来缩小与其他知识蒸馏方法之间的差距,从而使其在大规模情况下效果惊人。