数据重复有利于 SGD 学习高维多索引函数
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
使用两层神经网络学习多指标目标函数时,我们研究了训练动态。我们关注多次梯度下降(GD)使用多次批次并显示它显著改变了对可学习功能的结论,与单次梯度下降相比。特别是,我们发现具有有限步长的多次 GD 能够克服目标函数的信息指数(Ben Arous 等人,2021)和跃迁指数(Abbe 等人,2023)的限制,从而与目标子空间重叠。我们表明,在重新使用批次时,即使对于不满足阶梯特性的函数(Abbe 等人,2021),网络在仅两个时间步骤内即能与目标子空间有重叠。我们对有限时间内有效学习的(广义的)函数类进行了表征。我们的结果证明基于动态均场理论(DMFT)的分析。我们进一步提供了权重的低维投影的动态过程的闭合形式描述,并通过数值实验来说明该理论。
Feb, 2024
通过研究在浅层神经网络中使用梯度下降方法的稀疏高维函数,展示了它们在线性模型之外进行特征学习的能力。本研究扩展了这一框架,探索了高斯设置以外的情景,并通过假设在高维情形下可以有效地恢复未知方向。
Jul, 2023
该研究探讨了在初始状态下存在许多平坦方向时,双层神经网络在随机梯度下降下学习单目标函数的样本复杂性,发现过度参数化只能增强收敛,而不能提高在这个问题类中的常数因子,这些发现是基于将随机梯度下降动态降维到更低维度的随机过程。
May, 2023
本文研究基于 SGD 算法在均场方案下训练的二层神经网络,探讨神经网络如何处理高维数据并适应低维潜在结构的问题,提出了 “合并阶梯” 属性是这种学习方式的必要条件,同时证明了线性方法无法高效地学习这种类别的函数。
Feb, 2022
学习性能的理论边界是该研究论文的重点,特别关注使用一阶迭代算法弱恢复低维结构所需的最小样本复杂度,在样本数量与协变量维度成正比的高维情况下,通过非线性变换来研究神经网络的特征学习,探讨多指数模型的各种算法、计算相变以及近似传递信息算法的最优性。
May, 2024
在对称神经网络的设置下,通过对激活函数进行分析和对连接函数进行最大度数的假设,我们证明了梯度流可以恢复隐藏的预设方向,该方向在幂和多项式特征空间中表示为一个有限支持的向量,并刻画了适应我们设置的信息指数概念来控制学习的效率。
Oct, 2023
通过对高维高斯数据的多指数回归问题进行梯度流研究,我们提出了一种两时间尺度算法,该算法以非参数模型学习低维关联函数,实现了全局收敛性,并给出了与其关联的 “鞍点到鞍点” 动力学的定量描述。
Oct, 2023