May, 2023

知识蒸馏在部分方差降低方面发挥作用

TL;DR本文揭示了知识蒸馏方法的内在机制,对应于一种新型的随机方差缩减机制。通过在线性模型和深度线性模型的背景下实现这一方法,表明知识蒸馏可以降低随机梯度噪声,从而减少模型复杂度,但是需要进行参数化的调整。