基于梯度的学习系统线性化的弱相关性原则

Jan, 2024

基于梯度的学习系统线性化的弱相关性原则

Weak Correlations as the Underlying Principle for Linearization of Gradient-Based Learning Systems

Ori Shem-Ur, Yaron Oz

TL;DR基于梯度下降的深度学习算法以及大型神经网络中的线性动力学和弱相关性的研究。

Abstract

deep learning models, such as wide neural networks, can be conceptualized as nonlinear dynamical physical systems characterized by a multitude of interacting degrees of freedom. Such systems in the infinite limit

发现论文，激发创造

深度线性神经网络学习非线性动力学的精确解

通过对深度线性神经网络的学习动态进行系统分析，我们发现这些网络表现出类似于非线性神经网络的非线性学习现象，包括长时间的平原，然后快速转换到更低误差的解决方案，以及从贪婪的无监督预训练初始条件下的更快收敛等。同时，我们发现在权重的某些特殊初始条件下，非监督预训练可以找到这些初始条件，同时表现出深度独立的学习时间，而随机高斯初始化则做不到。

Dec, 2013

共享权重的宽神经网络的缩放极限：高斯过程行为、梯度独立性和神经切向核导出

本研究结合随机神经网络和张量程序的概念，研究了神经网络的收敛性和梯度动态性，在多种不同体系下，从而表明了该框架不仅可以引导更强的高斯过程的设计，而且还可以深入理解现代架构中的SGD动态。

Feb, 2019

任意深度的宽神经网络在梯度下降下演化为线性模型

本文研究神经网络的学习和泛化性能，发现对于宽神经网络，学习动态变得简单，并且在无限宽度的极限下，它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时，通过在广义上拟合高斯过程的理论，揭示了神经网络可能表现出高斯过程的特性。

Feb, 2019

浅层神经网络的动态中心极限定理

研究神经网络在梯度下降中的表现，证明了2范数的上限可以帮助在训练过程中控制一般化误差，数值实验结果与理论结果相符合。

Aug, 2020

大型非线性模型的线性性：何时和为什么切线核是恒定的

揭示了某些神经网络在宽度接近无穷大时，出现线性转换的显著现象，并通过Hessian矩阵的归一化来解释其原因。此外，还指出该现象并非宽神经网络的普遍特性。

Oct, 2020

基于时代的随机梯度下降中的相关噪声: 对权重方差的影响

本文研究了离散时间下具有动量的SGD的时域白噪声的自相关，并研究了epoch-based噪声相关性对于SGD的影响，结果表明对于大于超参数相关值的曲率方向，可以恢复无关噪声的结果，但对于相对平坦的方向，权重方差显著降低。

Jun, 2023

（深层）线性神经网络中的权重波动与逆方差平坦关系的推导

我们研究了合成高斯数据中单层和双层线性神经网络在随机梯度下降（SGD）的持续（末期）训练阶段。我们发现，在过度采样不足的弱过采样范围内，单层网络的噪声协方差矩阵的谱明显偏离Hessian，可归因于SGD动力学的详细平衡破坏。在这种情况下，权重波动一般是各向异性的，但经历各向同性的损失。对于双层网络，我们获得了各层权重的随机动力学，并分析了相关的稳定的协方差。我们将层间耦合确定为权重波动的新源头。与单层情况不同，权重波动经历了各向异性的损失，其平坦度与波动方差成反比。因此，我们在深度线性网络模型中提供了最近观察到的逆方差-平坦度关系的分析推导。

Nov, 2023

从宏观角度解密神经网络的懒惰训练

通过研究神经网络训练动态，探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用，我们发现梯度下降可以快速将深层神经网络驱动至零训练误差，不论具体的初始化方案如何，只要输出函数的初始尺度超过一定阈值。这个区域被称为theta-lazy区域，突出了初始尺度在神经网络训练行为中的主导影响，同时我们还发现这个theta-lazy区域与神经切线核（NTK）范式有相似之处，但条件宽松。通过严格的分析，我们揭示了初始尺度kappa在神经网络训练动态中的关键作用。

Apr, 2024

楼梯滑行：相关潜变量如何加速神经网络的学习

神经网络从高阶输入累积量中有效地提取相关方向并通过层次性学习加速了模型的性能。

Apr, 2024