基于梯度的学习系统线性化的弱相关性原则
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
本研究结合随机神经网络和张量程序的概念,研究了神经网络的收敛性和梯度动态性,在多种不同体系下,从而表明了该框架不仅可以引导更强的高斯过程的设计,而且还可以深入理解现代架构中的SGD动态。
Feb, 2019
本文研究神经网络的学习和泛化性能,发现对于宽神经网络,学习动态变得简单,并且在无限宽度的极限下,它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时,通过在广义上拟合高斯过程的理论,揭示了神经网络可能表现出高斯过程的特性。
Feb, 2019
揭示了某些神经网络在宽度接近无穷大时,出现线性转换的显著现象,并通过Hessian矩阵的归一化来解释其原因。此外,还指出该现象并非宽神经网络的普遍特性。
Oct, 2020
本文研究了离散时间下具有动量的SGD的时域白噪声的自相关,并研究了epoch-based噪声相关性对于SGD的影响,结果表明对于大于超参数相关值的曲率方向,可以恢复无关噪声的结果,但对于相对平坦的方向,权重方差显著降低。
Jun, 2023
我们研究了合成高斯数据中单层和双层线性神经网络在随机梯度下降(SGD)的持续(末期)训练阶段。我们发现,在过度采样不足的弱过采样范围内,单层网络的噪声协方差矩阵的谱明显偏离Hessian,可归因于SGD动力学的详细平衡破坏。在这种情况下,权重波动一般是各向异性的,但经历各向同性的损失。对于双层网络,我们获得了各层权重的随机动力学,并分析了相关的稳定的协方差。我们将层间耦合确定为权重波动的新源头。与单层情况不同,权重波动经历了各向异性的损失,其平坦度与波动方差成反比。因此,我们在深度线性网络模型中提供了最近观察到的逆方差-平坦度关系的分析推导。
Nov, 2023
通过研究神经网络训练动态,探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用,我们发现梯度下降可以快速将深层神经网络驱动至零训练误差,不论具体的初始化方案如何,只要输出函数的初始尺度超过一定阈值。这个区域被称为theta-lazy区域,突出了初始尺度在神经网络训练行为中的主导影响,同时我们还发现这个theta-lazy区域与神经切线核(NTK)范式有相似之处,但条件宽松。通过严格的分析,我们揭示了初始尺度kappa在神经网络训练动态中的关键作用。
Apr, 2024