重用梯度下降批次在两层网络中的好处：打破信息与跳跃指数的诅咒

Feb, 2024

重用梯度下降批次在两层网络中的好处：打破信息与跳跃指数的诅咒

The Benefits of Reusing Batches for Gradient Descent in Two-Layer Networks: Breaking the Curse of Information and Leap Exponents

PDF

Yatin Dandi, Emanuele Troiani, Luca Arnaboldi, Luca Pesce, Lenka Zdeborová...

TL;DR使用两层神经网络学习多指标目标函数时，我们研究了训练动态。我们关注多次梯度下降（GD）使用多次批次并显示它显著改变了对可学习功能的结论，与单次梯度下降相比。特别是，我们发现具有有限步长的多次 GD 能够克服目标函数的信息指数（Ben Arous 等人，2021）和跃迁指数（Abbe 等人，2023）的限制，从而与目标子空间重叠。我们表明，在重新使用批次时，即使对于不满足阶梯特性的函数（Abbe 等人，2021），网络在仅两个时间步骤内即能与目标子空间有重叠。我们对有限时间内有效学习的（广义的）函数类进行了表征。我们的结果证明基于动态均场理论（DMFT）的分析。我们进一步提供了权重的低维投影的动态过程的闭合形式描述，并通过数值实验来说明该理论。

Abstract

We investigate the training dynamics of two-layer neural networks when learning multi-index target functions. We focus on multi-pass gradient des

training dynamics multi-index target functions multi-pass gradient descent overlap with target subspace dynamical mean-field theory

发现论文，激发创造

数据重复有利于 SGD 学习高维多索引函数

神经网络通过高维嘈杂的数据识别低维相关结构，我们对其工作原理的数学理解仍然有限。本文研究了使用基于梯度的算法训练的两层浅层神经网络的训练动态，并讨论了它们在具有低维相关方向的多指标模型中学习相关特征的方式。

May, 2024

在线学习与信息指数：关于批次大小和时间 / 复杂度权衡的重要性

通过研究在具有各向同性协变量的多指标目标函数上使用一遍随机梯度下降法（SGD）训练两层神经网络的迭代时间和批次大小之间的影响，我们揭示了最佳批次大小对于缩短迭代时间的优化函数，同时不改变总样本复杂性，并通过 “相关损失 SGD” 来克服此基本限制。

Jun, 2024

逐步学习两层神经网络（巨大步长）

研究浅层神经网络的训练动态，探究少量大批量梯度下降步骤在哪些条件下可以促进核区以外的特征学习。

May, 2023

非齐次双层网络的大步长梯度下降法：边界改善与快速优化

神经网络的大步梯度下降（GD）训练通常包括两个不同的阶段，第一阶段中经验风险震荡，而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值（依赖于步长）的时刻。此外，我们展示了归一化边界在第二阶段几乎单调增长，证明了 GD 在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零，我们证明平均经验风险下降，暗示第一阶段必须在有限步骤中停止。最后，我们展示选择合适大步长的 GD 在经历这种阶段过渡时比单调降低风险的 GD 更高效。我们的分析适用于任意宽度的网络，超出了众所周知的神经切线核和平均场范围。

Jun, 2024

学习可分数据的两层神经网络的快速收敛

本文探讨了如何在两层神经网络上使用标准化的梯度下降算法，证明了使用标准化梯度下降算法可以实现指数尾数损失函数的快速收敛，并讨论了凸性目标的归纳性及过拟合问题。

May, 2023

多遍随机梯度方法的最优收敛速率

本文研究了随机梯度方法在多次迭代和小批量训练时的学习特性，并且调节了正则化特性的参数，确认了通过控制迭代次数可以达到最优的有限样本界，同时，合适的步长可以让较大的批量予以考虑，我们使用统一方法，将批量和随机梯度方法作为特例，得到了批量梯度方法的最优收敛结果 (即使在不可达的情况下)。

May, 2016

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

两层神经网络的梯度下降：边界最大化和简化偏差

本文研究了 Leaky ReLU 神经网络的全局最优性，证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的 “max-margin” 解，同时还对梯度下降在训练初期的 “简单度偏向” 现象进行了理论解释。

Oct, 2021

通过梯度流学习高斯多指标模型

通过对高维高斯数据的多指数回归问题进行梯度流研究，我们提出了一种两时间尺度算法，该算法以非参数模型学习低维关联函数，实现了全局收敛性，并给出了与其关联的 “鞍点到鞍点” 动力学的定量描述。

Oct, 2023

使用 T - 批处理进行动态网络表示学习时选择损失函数的影响

表示学习方法在将离散网络结构转化为连续领域方面为机器学习提供了革命性进展，但是动态网络在时间上的演变带来了新的挑战。我们通过数学分析提出了两种新的损失函数来克服 t-batching 中训练损失函数的局限性，并在合成和真实动态网络上进行了广泛评估，结果一致显示出比原始损失函数更优越的性能，尤其在具有多样的用户交互历史的真实网络中，所提出的损失函数在 Mean Reciprocal Rank（MRR）上实现了超过 26.9% 的增强和 Recall@10 上的超过 11.8% 的改善，这些发现凸显了动态网络建模中所提出的损失函数的功效。

Aug, 2023