ICLROct, 2021

神经坍塌的无约束分层剖析视角

TL;DR本文研究神经网络的一种几何模式 —— 神经坍塌现象。我们提出了一个模型 —— 无约束层剥模型(ULPM),证明了该模型的梯度流收敛到一个最小范数分离问题的临界点,表现出全局最小化时神经坍塌现象。此外,我们还表明,采用交叉熵损失函数的 ULPM 具有良好的全局景观,所有临界点都是严格鞍点,除全局最小值外不发生神经坍塌现象。我们的实验证明,即使不使用显式正则化或权重衰减,我们的结果也适用于神经网络的实际任务训练。