Jan, 2023

知识蒸馏 ≈ 标签平滑:事实还是谬误?

TL;DR本文探讨知识蒸馏和标签平滑之间的关系,实验结果表明在大多数情况下,它们所驱动的模型不确定性完全相反,知识蒸馏是一种直接从老师模型传递知识的方法。