逃离平庸：两层网络如何使用 SGD 学习困难的单指标模型

May, 2023

逃离平庸：两层网络如何使用 SGD 学习困难的单指标模型

Escaping mediocrity: how two-layer networks learn hard single-index models with SGD

Luca Arnaboldi, Florent Krzakala, Bruno Loureiro, Ludovic Stephan

TL;DR该研究探讨了在初始状态下存在许多平坦方向时，双层神经网络在随机梯度下降下学习单目标函数的样本复杂性，发现过度参数化只能增强收敛，而不能提高在这个问题类中的常数因子，这些发现是基于将随机梯度下降动态降维到更低维度的随机过程。

Abstract

This study explores the sample complexity for two-layer neural networks to learn a single-index target function under stochastic gradient descent

neural networks stochastic gradient descent sample complexity overparameterization convergence

发现论文，激发创造

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022

SGD 在两层神经网络中寻找并调整特征，具有近乎最优的样本复杂度：以 XOR 问题为案例研究

通过使用小批量随机梯度下降（SGD）优化过程，我们证明在一个二层神经网络上，使用四阶布尔超立方体上带有 “XOR” 函数标签的数据，可以使用 O (d) 的样本达到人口误差 o (1)。我们的主要技术是通过同时训练神经网络的两个层来展示网络的演化过程，其中有一个信号发现阶段和一个信号丰富阶段。

Sep, 2023

高维双层神经网络中的随机梯度下降相图

本文探讨了梯度下降在高维中非凸优化领域的应用，通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现，研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用，并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。

Feb, 2022

合并阶梯性质：SGD 学习两层神经网络上稀疏函数的必要且近乎充分条件

本文研究基于 SGD 算法在均场方案下训练的二层神经网络，探讨神经网络如何处理高维数据并适应低维潜在结构的问题，提出了 “合并阶梯” 属性是这种学习方式的必要条件，同时证明了线性方法无法高效地学习这种类别的函数。

Feb, 2022

数据重复有利于 SGD 学习高维多索引函数

神经网络通过高维嘈杂的数据识别低维相关结构，我们对其工作原理的数学理解仍然有限。本文研究了使用基于梯度的算法训练的两层浅层神经网络的训练动态，并讨论了它们在具有低维相关方向的多指标模型中学习相关特征的方式。

May, 2024

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

面向极小化问题：超参数问题 SGD 的快速收敛

本文提出在插值范式内的正则条件，使得随机梯度方法与确定性梯度方法具有相同的最坏迭代复杂度，同时仅在每次迭代中使用单个采样梯度（或一个小批量）。最后，我们证明了我们的条件在训练具有线性输出层的足够宽的前馈神经网络时成立。

Jun, 2023

存在糟糕的全局最小值，并且 SGD 可以到达它们

通过研究深度神经网络的显式正则化对随机梯度下降的作用，证实显式正则化对于高参数化的神经网络成功的贡献远比随机梯度下降方法更为重要。

Jun, 2019

神经网络上的随机梯度下降学习越来越复杂的函数

实验研究表明，Stochastic Gradient Descent 利用条件互信息学习了从线性分类器到逐渐复杂的函数的分类器，解释了超参数化区域中 SGD 学习的分类器为什么往往具有良好的泛化能力。

May, 2019

两层神经网络格势的均场视角

本论文在研究多层神经网络的优化问题，发现随机梯度下降算法会收敛到一个全局最优点，且这一点具有很好的泛化能力。结果表明，适当的尺度下，随机梯度下降动态可以通过某个非线性偏微分方程捕捉，从而证明了 SGD 的收敛性。

Apr, 2018