三层神经网络动力学：初始凝聚

Feb, 2024

On the dynamics of three-layer neural networks: initial condensation

Zheng-an Chen, Tao Luo

TL;DR通过理论分析，我们揭示了三层神经网络训练中凝聚现象的机制，并从二层神经网络训练中进行了区分。我们还建立了有效动力学的爆炸特性，并给出了凝聚现象发生的充分条件，并通过实验证实了这些发现。此外，我们探索了凝聚与深度矩阵分解中观察到的低秩偏差之间的关联。

Abstract

Empirical and theoretical works show that the input weights of two-layer neural networks, when initialized with small values, converge towards isolated orientations. This phenomenon, referred to as condensation,

neural networks condensation gradient descent methods training process low-rank bias

发现论文，激发创造

卷积神经网络初步凝结的理解

本研究探讨了卷积神经网络在小初始化和梯度训练方法下内核权重的凝聚现象，实验证明该现象在卷积神经网络中同样存在且显著。理论上，本研究证明在有限的训练期间，具有小初始化的两层卷积神经网络内核将收敛至一个或几个方向，为对具有专业结构的神经网络表现出的非线性训练行为的更好理解迈出了一步。

May, 2023

无限宽度三层神经网络的实验相图

该研究建立了一个三层无限宽度的神经网络参数初始化的相图，发现不同层的动态行为区别巨大，提供了对不同初始化条件下深度神经网络的研究指导。

May, 2022

压缩中等规模深度神经网络的高效灵活方法

我们提出了一种凝结缩减算法，验证了这一想法在实际问题中的可行性，可以将神经网络的规模减小，并在保持预测准确性的同时减少计算压力和提高推理速度。

May, 2024

神经排序崩溃：权重衰减和小的内类变异性带来低秩偏差

深度学习中的低秩偏好与神经网络的神经层塌陷现象相关，权重衰减参数的增长导致网络中每一层的秩与前一层隐藏空间嵌入的类内变异成正比减少。

Feb, 2024

理解和利用神经网络的学习阶段

通过对参数的演化，我们全面分析了深度神经网络的学习动态，发现存在三个阶段：接近恒定的重建损失、下降和上升。我们还通过经验实证建立了数据模型，并对单层神经网络证明了阶段的存在。我们的工作为迁移学习提供了新的最佳实践：通过实验证明预训练的分类器在性能达到最优之前应该停止。

Dec, 2023

学习网络的权重动态

使用局部稳定性分析的数学框架，我们研究了前馈神经网络学习动力学的深层理解，推导了三层神经网络在学习回归任务时的切线算子方程，结果适用于任意节点数和任意激活函数的选择。我们通过数值方法应用这些结果于网络学习回归任务中，调查了稳定性指标与最终训练损失之间的关系。虽然具体结果会因初始条件和激活函数的不同而有所变化，我们证明了通过监测训练过程中的有限时间 Lyapunov 指数或协变 Lyapunov 向量，可以预测最终的训练损失。

Apr, 2024

两次齐次神经网络中初始参数微小趋向与马鞍点的方向收敛

本文研究了初始接近原点的两均勻神經網絡的梯度流動力學，對於方塊和邏輯損失，會有足夠長的時間在原點的附近，使神經網絡的權重大約收斂於量化神經網絡輸出和相應標籤在訓練數據集上相關性的 Karush-Kuhn-Tucker（KKT）點；方塊損失下神經網絡經常在接近原點的地方產生鞍點，本文在此基礎上展示了小幅度權重在某些鞍點附近的類似方向收斂。

Feb, 2024

探索神经衰竭：批标准化和权重衰减的影响

神经崩溃是最后一层神经网络分类器中出现的几何结构，本文研究了批归一化和权重衰减对神经崩溃的影响，并提出了几何直观的类内和类间余弦相似度度量来捕捉神经崩溃的核心方面。结果表明，批归一化和权重衰减可能是神经崩溃出现的基本因素。

Sep, 2023

深度网络中的动力学和泛化理论 III

本研究通过分析深度神经网络的梯度下降技术实现，提出了控制网络复杂度的隐含规范化方法，并将其归纳为梯度下降算法的内在偏差，说明这种方法可以解决深度学习中过拟合的问题。

Mar, 2019

利用双时间尺度区间展示神经网络的收敛

研究浅层神经网络的训练动态，证明了在内层步长远小于外层步长的两个时间尺度范围内，梯度流收敛于非凸优化问题的全局最优解，这依然成立即使神经元数量不是渐近大，与神经切向核或平均场逼近等最近流行的方法有所区别，并通过实验证明，随机梯度下降符合我们的梯度流描述，并在两个时间尺度范围内收敛到全局最优解，但在此范围之外可能失败。

Apr, 2023