逐步学习两层神经网络（巨大步长）

May, 2023

逐步学习两层神经网络（巨大步长）

Learning Two-Layer Neural Networks, One (Giant) Step at a Time

Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce, Ludovic Stephan

TL;DR研究浅层神经网络的训练动态，探究少量大批量梯度下降步骤在哪些条件下可以促进核区以外的特征学习。

Abstract

We study the training dynamics of shallow neural networks, investigating the conditions under which a limited number of large batch gradient descent steps can facilitate →

shallow neural networks batch gradient descent feature learning hard directions staircase property

发现论文，激发创造

在线学习与信息指数：关于批次大小和时间 / 复杂度权衡的重要性

通过研究在具有各向同性协变量的多指标目标函数上使用一遍随机梯度下降法（SGD）训练两层神经网络的迭代时间和批次大小之间的影响，我们揭示了最佳批次大小对于缩短迭代时间的优化函数，同时不改变总样本复杂性，并通过 “相关损失 SGD” 来克服此基本限制。

Jun, 2024

两层神经网络中一次梯度步骤的非线性特征学习理论

通过分析两层全连接神经网络中梯度下降和岭回归的步骤，证明采用学习率随样本大小增长的训练方法可以引入多个一阶秩分量，分别对应特定的多项式特征，进而改善神经网络的学习效果。

Oct, 2023

特征学习的高维渐近性：一个梯度步骤如何改善表示

研究两层神经网络中第一梯度下降步骤，证明第一梯度更新中存在一个秩为 1 的 “峰值”，可以使第一层权重与教师模型的线性部分对其，并探索学习率对特征的影响，得出即使一步梯度下降也能带来显著优势的结论。

May, 2022

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022

重新审视深度神经网络的小批量训练

本文研究了基于小批量样本随机梯度优化的现代深度神经网络训练中，不同批量大小对测试性能和泛化性能的影响，并指出使用小批量训练可以提供更稳定和可靠的结果。

Apr, 2018

一次梯度下降后两层网络中特征学习的渐近性

通过连接非线性尖峰矩阵模型和高斯普遍性的最新进展，我们确切描述了两层神经网络在高维极限中的泛化误差，其中样本数 (n)、宽度 (p) 和输入维度 (d) 以相同的速度增长，同时阐明了数据适应对网络在梯度方向高效学习非线性函数的重要性，而在初始化阶段只能表示线性函数。据我们所知，我们的结果是首次对两层神经网络在大学习率区间 (η=Θ_d (d)) 中的特征学习对泛化的影响进行严格描述，超越了共轭核和神经切向核的微扰有限宽度修正。

Feb, 2024

贝叶斯视角下的泛化和随机梯度下降

研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集，以及为什么随机梯度下降找到的最小值能很好地推广；探讨了小批量大小影响参数朝向大证据最小值的作用；当学习速率固定时，建议选择使测试集准确性最大化的最佳批次大小。

Oct, 2017

深度学习中步长的重要性

利用梯度下降算法训练神经网络会导致产生离散时间非线性动力系统，算法步长对这些系统的收敛行为有决定性的影响并能解释实际问题中观测到的多种现象，如训练误差的恶化和深度残差网络的性能差异等。

May, 2018

逃离平庸：两层网络如何使用 SGD 学习困难的单指标模型

该研究探讨了在初始状态下存在许多平坦方向时，双层神经网络在随机梯度下降下学习单目标函数的样本复杂性，发现过度参数化只能增强收敛，而不能提高在这个问题类中的常数因子，这些发现是基于将随机梯度下降动态降维到更低维度的随机过程。

May, 2023

随机梯度下降的不同制度

通过对教师 - 学生感知器分类模型的研究，我们在 B-η 平面上获得了一个相图，分为三个动力学相：(i) 由温度控制的噪声主导的 SGD，(ii) 由大步长主导的 SGD 和 (iii) GD，这些不同相还对应着不同的泛化误差区域。有趣的是，我们的分析揭示了将相 (i) 和相 (ii) 分隔开的批次大小 B * 与训练集大小 P 呈比例，其中的指数表征了分类问题的难度。

Sep, 2023