Jan, 2021

通过分层模型探索深度神经网络:不平衡训练中的少数类崩溃

TL;DR本文介绍了 Layer-Peeled 模型,它是一种非凸优化程序,并通过在深度神经网络顶层和其余部分之间分别施加一定的约束来获得解析可追踪性。通过研究我们发现,该模型虽然简单,但具有许多深度神经网络的特性,因此是解释和预测深度学习训练的常见经验模式的有效工具。其中,我们发现对于 Class-balanced 数据集,Layer-Peeled 模型的任何解都构成一个 simplex equiangular tight frame(简称 SET frame),这在一定程度上解释了神经崩溃现象。在非平衡数据的情况下,我们的 Layer-Peeled 模型分析揭示了一个迄今未知的现象 ——Minority Collapse,这从根本上限制了深度学习模型在少数类上的性能,为缓解其带来的后果提供了一些启示。