神经网络权重不会收敛到稳态点:一个不变测度的角度
本文研究了神经网络模型训练时的权重空间,探讨了收敛的表象与权重达到关键点的误解,并揭示了收敛往往是通过权重空间的大幅度平移实现的,这对于深度学习模型的训练具有重要启示。
Feb, 2016
我们研究了合成高斯数据中单层和双层线性神经网络在随机梯度下降(SGD)的持续(末期)训练阶段。我们发现,在过度采样不足的弱过采样范围内,单层网络的噪声协方差矩阵的谱明显偏离 Hessian,可归因于 SGD 动力学的详细平衡破坏。在这种情况下,权重波动一般是各向异性的,但经历各向同性的损失。对于双层网络,我们获得了各层权重的随机动力学,并分析了相关的稳定的协方差。我们将层间耦合确定为权重波动的新源头。与单层情况不同,权重波动经历了各向异性的损失,其平坦度与波动方差成反比。因此,我们在深度线性网络模型中提供了最近观察到的逆方差 - 平坦度关系的分析推导。
Nov, 2023
本研究探索了神经网络训练算法与自然过程如蛋白质折叠和进化之间的相似性,使用统计物理中 Fokker-Planck 方法将它们在一个统一的框架下探索,研究了在长时间极限下系统的稳态和出现的熵产生率,验证了涉及到这些数值的图谱存在扰动定理,提出了一种新的随机梯度 Langevin 动力学(SGLD)算法,可以应用于贝叶斯机器学习中从后验分布中获取网络权重。
Jun, 2023
通过分析神经网络中的不变性学习,我们研究了从数据中学习的不变性与通过不变性权重绑定实现的真实不变性之间的属性和限制。通过引入不变性错误正则化,我们展示了如何指导不变性学习朝着真实不变性的方向发展,并且显示这种学习的不变性在严重的输入分布偏移下也是可靠的。
Aug, 2023
本文提出了一个针对混沌系统长期预测的框架,该框架旨在保留描述动力学的不变吸引子的不变统计特性。我们考虑两种方法来处理噪声数据的多环境设置中的训练,一种是基于观察到的动力学和神经操作器输出之间的最优输运距离的损失,另一种是不需要任何专业先前知识的对比学习框架。通过在各种混沌系统上进行实证验证,我们的方法在保持混沌吸引子的不变测度方面表现出很好的效果。
Jun, 2023
使用统计和信息理论的已建立原则,我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性,而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失,强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失:一种是使用 Kullbach-Leibler 项,它与 PAC-Bayes 视角相关;另一种是使用权重中的信息作为学习模型复杂度的度量,从而为权重提供了一种新的信息瓶颈。最后,我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的,因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变,我们通过实验证实了这一点,并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。
Jun, 2017
随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了 SGD 的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
本研究针对深度网络权重空间中的对称性问题,探讨了使用基于单位范数的约束来改善权重空间对称性问题的方法,并通过 MNIST 数据集上的实验证明该方法优于批量归一化方法且不会影响权重更新的计算性能。
Nov, 2015