May, 2024

探索在不同教师能力下的暗知识,并解决能力不匹配问题

TL;DR知识蒸馏技术可以将性能出众且庞大的神经网络的 “深层知识” 传递给性能较弱但轻量级的网络。该研究深入探讨了具有不同容量的教师所提供的深层知识,从输出对数和软化概率的角度进行分析,并通过丰富的实验研究验证了观察结果。研究发现不同容量的教师在对相对类别关联性的认知上基本保持一致,并提出了扩大大容量教师的非真实类别概率差异以解决 “容量不匹配” 问题的简单而有效方法。通过与解决容量不匹配问题的流行知识蒸馏方法进行比较,验证了这些方法的成功性。