残差对齐: 揭示残差网络的机制

Jan, 2024

Residual Alignment: Uncovering the Mechanisms of Residual Networks

Jianing Li, Vardan Papyan

TL;DRResNet架构在深度学习中得到广泛采用，通过使用简单的跳跃连接显著提高性能，但其成功背后的机制仍然大部分未知。本文通过使用剩余雅可比矩阵对其构成的残差块进行线性化，并测量其奇异值分解，在分类任务中进行了对ResNet架构的彻底实证研究。我们的测量结果揭示了一个被称为Residual Alignment (RA)的过程，该过程具有四个特征，包括中间表示在高维空间中等间隔地嵌入在一条直线上（RA1），残差雅可比左右奇异向量与各个深度之间以及不同深度之间对齐（RA2），全连接ResNets的残差雅可比最多具有C阶可逆性，其中C为类别数量（RA3），残差雅可比的前奇异值与深度成反比（RA4）。RA在那些泛化良好的模型中始终存在，无论是全连接还是卷积架构，无论深度和宽度如何，无论类别数量如何，而且适用于所有经过测试的基准数据集，但一旦跳跃连接被移除，RA将不再出现。我们还提出了一个新的数学模型，该现象在我们提出的数学模型中得到验证。这种现象揭示了ResNet的残差分支之间的强大对齐性（RA2+4），将中间表示沿着网络线性推进（RA1）直到最后一层，在最后一层中，它们经历了神经崩溃（Neural Collapse）。

Abstract

The resnet architecture has been widely adopted in deep learning due to its significant boost to performance through the use of simple skip connections, yet the underlying mechanisms leading to its success remain largely unknown. In this paper, we conduct a thorough empirical study of