Dec, 2020

深度学习中集成、知识蒸馏和自蒸馏的理解

TL;DR探讨了深度学习模型集合如何提高测试准确率,以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上,提出了一种新的理论,解释了在数据具有 “多视图” 结构的情况下,各自独立训练的神经网络集合确实可以明显提高测试准确率,而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明,结果揭示了在深度学习中,集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后,还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。