深度学习中步长的重要性
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
本文研究了学习速率对深度神经网络性能的影响,提出了一种具有可解训练动态的神经网络类,并在实际深度学习环境中验证了其预测,发现小学习率相当于传统理论下的无穷宽神经网络,而大学习率相当于梯度下降动态收敛到更平坦的极小值点,模型中预测的大而稳定的学习率范围得到了验证,同时发现在大学习率下模型性能优越。
Mar, 2020
研究了梯度下降法与梯度流动在深度学习中的关系,发现深度神经网络上的梯度流动轨迹存在良好曲率,能够很好地近似梯度下降法。理论和实验结果表明,梯度下降法具有较高的计算效率和全局最小解收敛保证。
Jul, 2021
通过对大步长梯度下降在二次回归模型中的动力学进行全面调查,揭示了动力学可以由特定的三次映射来描述,并通过细致的分叉分析划分了五个不同的训练阶段,同时研究了非单调和非发散阶段的泛化性能。
Oct, 2023
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以$1/ extit{width}$的速度收敛到无限宽度动力学,但在后期表现为$ extit{width}^{-c}$的速度,其中$c$取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限,(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响,该界限依赖于激活函数的李普希茨连续性。值得注意的是,这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比,前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述,通过约束范数的传输映射,并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。
Feb, 2024
我们通过分析神经网络中优化轨迹中包含的参数丰富结构,提出了一种全新的理解机制的方法。我们引入一些关于优化轨迹复杂性的自然概念,同时定性和定量地揭示了动量、权重衰减和批处理大小等各种优化选择之间的内在细微差别和相互作用。对于深度神经网络中优化的本质,当它进行得顺利时以及当它陷入瓶颈时,我们利用这些概念提供了关键特点。此外,得益于我们对优化轨迹的观点,我们发现动量和权重衰减之间存在相互交织的行为,促进了方向探索,并且其他一些行为则具有方向性的规范化行为。我们通过在大规模视觉和语言环境下进行实验证明了我们方法的价值,包括具有多达120亿参数的大型语言模型。
Mar, 2024
本文提出了一种利用新的对数步长的随机梯度下降(SGD)方法的新型热重启技术,对于平滑和非凸函数,我们建立了SGD的O(1/√T)收敛速度。我们对FashionMinst,CIFAR10和CIFAR100数据集进行了全面的实现,证明了新提出的步长的高效性。此外,我们将结果与其他九种现有方法进行了比较,并证明在使用卷积神经网络(CNN)模型时,新的对数步长将CIFAR100数据集的测试准确性提高了0.9%。
Apr, 2024
通过研究神经网络训练动态,探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用,我们发现梯度下降可以快速将深层神经网络驱动至零训练误差,不论具体的初始化方案如何,只要输出函数的初始尺度超过一定阈值。这个区域被称为theta-lazy区域,突出了初始尺度在神经网络训练行为中的主导影响,同时我们还发现这个theta-lazy区域与神经切线核(NTK)范式有相似之处,但条件宽松。通过严格的分析,我们揭示了初始尺度kappa在神经网络训练动态中的关键作用。
Apr, 2024