Oct, 2019

蒸馏 ≈ 提前停止?利用各向异性信息检索收获深度知识对超参数化的神经网络

TL;DR本文提出了一种新的理论来解释为什么 depth distillation 的标准实践阻碍了深度神经网络的学习,并提出了一种名为 “self-distillation” 的方法,以在先前的训练时期中从网络中分步提取知识,以避免记忆错误标签,最终在理论和实验方面得出了更好的准确性。