学习特征中的瓶颈结构:低维度与规则性的权衡
我们研究了 Leaky ResNets,它在 ResNets($\tilde {L}=0$)和全连接网络($\tilde {L} \to \infty$)之间进行内插,具体取决于一个 “有效深度” 超参数 $\tilde {L}$。在无限深度极限下,我们研究了表示空间中的连续路径 $A_{p}$(类似于 NeuralODEs),这些路径从输入 $p=0$ 到输出 $p=1$,最小化网络的参数范数。我们给出了一个拉格朗日和哈密顿重述,突出了两个重要因素:一个动能,它偏爱小层导数 $\partial_{p} A_{p}$,一个势能,它偏爱低维表示,用 “恒等成本” 进行测量。这两种力之间的平衡提供了对 ResNets 中特征学习的直观理解。我们利用这种直观理解来解释之前工作中观察到的瓶颈结构的出现:对于大的 $\tilde {L}$,势能占主导地位,导致时间尺度的分离,表示空间从高维输入迅速跳跃到低维表示,然后在低维表示空间内缓慢移动,最后又跳回可能是高维的输出。受到这一现象的启发,我们使用自适应层步长进行训练,以适应时间尺度的分离。
May, 2024
卷积瓶颈 (CBN) 结构在卷积神经网络 (CNNs) 中的出现,说明网络使用前几层将输入表示转化为仅在少数频率和通道上支持的表示,然后使用最后几层将其映射回输出。我们定义了 CBN 秩,用于描述在瓶颈中保留的频率数量和类型,并在某种程度上证明了表示函数 $f$ 所需的参数范数与深度乘以 CBN 秩 $f$ 成正比。我们还展示了参数范数对 $f$ 的规则性的依赖关系。我们表明,任何具有近乎最优参数范数的网络都会在权重和激活函数中表现出 CBN 结构,这也验证了下采样的常见做法,并验证了 CBN 结果在使用下采样时仍然成立。最后,我们使用 CBN 结构对 CNN 在多个任务中学到的函数进行了解释。
Feb, 2024
本研究探讨使用 $L_{2}$ 正则化的 DNNs 的损失曲面,并证明了通过特征学习来实现最优隐藏表示,以及如何通过隐藏表示的协方差来证明 $N (N+1)$ 神经元的局部最小值,并且在传统设置中远不需要 $N^{2}$ 神经元即可达到最小值。
May, 2022
研究表明,完全连接的神经网络在非线性齐次时的表示成本收敛于非线性函数的排序上,然后研究了何时可以恢复数据的 “真实” 排名,最后发现自编码器具有最优非线性排名是自然的去噪声的。
Sep, 2022
神经网络的隐式正则化现象与参数的几何特征密切相关,优化过程中更倾向于具有低批次功能维度的参数。网络的输入也对批次功能维度产生影响,输入的变化会改变批次功能维度的上限,称为可计算全功能维度,其估计收敛迅速且保持接近参数个数,可以与局部可辨识性相对应。与训练输入和测试输入相关的批次功能维度则由几何诱导的隐式正则化所影响。
Feb, 2024
使用统计和信息理论的已建立原则,我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性,而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失,强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失:一种是使用 Kullbach-Leibler 项,它与 PAC-Bayes 视角相关;另一种是使用权重中的信息作为学习模型复杂度的度量,从而为权重提供了一种新的信息瓶颈。最后,我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的,因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变,我们通过实验证实了这一点,并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。
Jun, 2017
本文研究了深度神经网络的特征表示瓶颈,从输入变量在 DNN 中编码的交互复杂性的角度进行探讨,发现 DNN 更可能编码过于简单和过于复杂的交互,并且通常无法学习中等复杂度的交互。该现象被称为特征表示瓶颈,本文从理论上证明了其根本原因,并提出了一种损失函数来促进或惩罚特定复杂度的交互的学习,并分析了不同复杂度交互的表示能力。
Nov, 2021
通过研究使用信息瓶颈功能最小化来训练深度神经网络进行分类的理论论文,我们发现这种优化问题存在严重问题,方法包括使用随机神经网络、更加稳定的代价函数和设计直接实现所需属性的潜在表示的正则化项。
Feb, 2018
研究关系瓶颈对因式表示学习和处理灵活性的影响,并证明该瓶颈不仅改善了泛化和学习效率,而且与人类行为偏差相一致,从而促进了抽象表示的产生,使处理灵活性类似于符号。
Feb, 2024