带有递减步长的SGD最后迭代的过参数化线性回归风险界
研究随机梯度下降法(SGD)在强凸目标函数上的收敛性,证明了ICML 2018和2019提出的降低步长的速率序列在每次迭代后的收敛速度与我们的下限相差不到32倍,为最优状态;该下限相较于现有工作大约高出了因子775×d,其中d是维度。
Oct, 2018
本文旨在设计新的步长序列,以获得对最后一点的 SGD 和 GD 的理论最佳子优越性保证,并通过模拟验证了新的步长序列相对于标准步长序列的改进,主要涉及随机梯度下降、优化、步长序列、子优越性和收敛率。
Apr, 2019
这项工作研究了随机梯度下降对于流式最小二乘回归问题的最终迭代行为并探讨使用Step Decay调度方案实现可接受的改进,同时发现SGD的最终迭代行为不如期望,并强调了随机梯度下降固定时间限制下确定最优学习率方案的复杂性。
Apr, 2019
本研究探讨了非凸非光滑目标函数中常数步长随机梯度下降算法的渐近正态结果,结果表明只要非凸和非光滑目标函数满足耗散性特性,SGD算法的迭代平均值就会渐近正态分布,该结果可用于构建对于使用SGD算法的非凸问题的置信区间。同时,本文通过对其与马尔可夫链的关系进行了详细地分析,还对目标函数的临界点与其期望值之间的偏差进行了表征。
Jun, 2020
本文研究了随机梯度下降和全样本梯度下降在随机凸优化模型中泛化性能的分离问题,发现经典的全样本梯度下降算法在步数相同的情况下会出现过拟合且通常需要更多的步数才能与随机梯度下降算法获得类似的泛化性能。同时本文还探讨了正则化、稳定性和隐含偏差等概念在泛化中的作用。
Feb, 2021
研究了神经网络在最小二乘设置中的应用,讨论了随机梯度下降与最终迭代的相关性,并在统计和优化双重视角下给出了多项式瞬时收敛率的解读,建立与再生核希尔伯特空间的联系。
Feb, 2021
研究算法归纳偏差对于防止过度拟合的重要性,探讨使用常数步长随机梯度下降算法在超参数化情况下进行线性回归的问题和解决方案,提供了数据协方差矩阵全部的特征值,阐述一个可以使得泛化成为可能的偏差-方差分解,实验结果表明理论结果的正确性。
Mar, 2021
我们研究了加速随机梯度下降(ASGD)在过参数化线性回归中的泛化情况,建立了数据协方差矩阵的每个特征子空间下的ASGD的过量风险界限,结果显示出ASGD在小特征值子空间中的偏差误差以指数衰减的速度优于SGD,而在大特征值子空间中,偏差误差的衰减速度较慢,且ASGD的方差误差始终大于SGD的。我们的研究表明,当初始化向量与真实权重向量的差异主要集中在小特征值子空间时,ASGD可以优于SGD。此外,当我们将分析专门应用于强凸设置下的线性回归问题时,得到的偏差误差界限比已知结果更紧。
Nov, 2023
研究了梯度方法在基础随机凸优化条件下的泛化性能,并关注其与维数的依赖关系。针对全批量梯度下降(GD),通过构建学习问题,在维数为$ d = O(n^2)$的情况下,可以证明经过调整以达到经验风险最优表现的典型GD(使用n个训练样本)在具有常数概率的情况下,收敛为近似经验风险最小化器,且其相对于总体风险具有Ω(1)的过量风险。这个界限对于标准GD需要达到非平凡测试误差的训练样本数量有一个下界Ω(√d),回答了Feldman(2016)和Amir,Koren和Livni(2021b)提出的一个开放问题,表明非平凡的维数依赖性是不可避免的。此外,针对标准的一次遍历随机梯度下降(SGD),我们证明了同样的构建技术在样本复杂度上提供了类似的Ω(√d)下界,以达到非平凡的经验误差,尽管它可以实现最优的测试性能。与之前的工作(Koren,Livni,Mansour和Sherman,2022)相比,这提供了维数依赖性的指数级改进,解决了其中的一个开放问题。
Jan, 2024
本研究针对高维学习中随机梯度下降(SGD)及其加速变种的最优性问题进行探讨,填补了这一领域的研究空白。通过建立动量加速SGD的收敛上界,论文提出了在特定问题下SGD或ASGD能实现最小-最大最优收敛速率的具体条件。此外,研究结果揭示了SGD在学习“稠密”特征及易问题中的高效性,并表明动量能够在相对困难的学习问题上显著加速收敛速度。
Sep, 2024