May, 2024

特征学习的哈密顿力学:漏洞结构在渗漏 ResNets 中的应用

TL;DR我们研究了 Leaky ResNets,它在 ResNets($\tilde {L}=0$)和全连接网络($\tilde {L} \to \infty$)之间进行内插,具体取决于一个 “有效深度” 超参数 $\tilde {L}$。在无限深度极限下,我们研究了表示空间中的连续路径 $A_{p}$(类似于 NeuralODEs),这些路径从输入 $p=0$ 到输出 $p=1$,最小化网络的参数范数。我们给出了一个拉格朗日和哈密顿重述,突出了两个重要因素:一个动能,它偏爱小层导数 $\partial_{p} A_{p}$,一个势能,它偏爱低维表示,用 “恒等成本” 进行测量。这两种力之间的平衡提供了对 ResNets 中特征学习的直观理解。我们利用这种直观理解来解释之前工作中观察到的瓶颈结构的出现:对于大的 $\tilde {L}$,势能占主导地位,导致时间尺度的分离,表示空间从高维输入迅速跳跃到低维表示,然后在低维表示空间内缓慢移动,最后又跳回可能是高维的输出。受到这一现象的启发,我们使用自适应层步长进行训练,以适应时间尺度的分离。