最小二乘法中提前停止的连续时间视角
本文考虑了最小二乘回归问题,提出了平均恒定步长随机梯度下降(也称最小均方误差)的性能的详细渐近分析。在强凸情况下,我们提供了一个高度渐近展开式。我们的分析提供了对随机逼近算法的新见解。
Nov, 2014
提出一种基于平均加速正则梯度下降的算法,通过细化初值和Hessian矩阵的假设,最优地优化回归问题,并证明其在偏差与方差之间具有最优性、大数据时初始化影响可达到O(1/n2)以及对于维度d的依赖程度为O(d/n)。
Feb, 2016
研究隐式正则化的小批量随机梯度下降,以最小二乘回归为基础问题,利用具有与随机梯度下降相同矩的连续时间随机微分方程,称为随机梯度流。给出了随时间t随机梯度流的超额风险的界限,超过了具有调整参数λ=1/t的岭回归,此界限可以从明确的常数(例如小批量大小,步长,迭代次数)计算出来,显示了这些数量如何精确地推动超额风险。数值实验表明,边界可以很小,表明两种估计值之间存在紧密关系。给出了一个类似的结果,将随机梯度流和岭的系数联系起来。这些结果不受数据矩阵X的任何条件限制,并且跨越整个优化路径(不仅仅在收敛处)
Mar, 2020
研究了梯度下降法与梯度流动在深度学习中的关系,发现深度神经网络上的梯度流动轨迹存在良好曲率,能够很好地近似梯度下降法。理论和实验结果表明,梯度下降法具有较高的计算效率和全局最小解收敛保证。
Jul, 2021
研究两层神经网络中第一梯度下降步骤,证明第一梯度更新中存在一个秩为 1 的“峰值”,可以使第一层权重与教师模型的线性部分对其,并探索学习率对特征的影响,得出即使一步梯度下降也能带来显著优势的结论。
May, 2022
矩阵感知是从少量线性测量中重建低秩矩阵的问题,我们引入了连续微分方程,称其为“扰动梯度流”,通过边界足够有界的累计误差,证明扰动梯度流迅速收敛到真实目标矩阵,从而提供了一种基于梯度下降的非对称矩阵感知的新证明方法。
Sep, 2023
研究了高维线性回归问题中,使用迭代算法得到的迭代次数从1到T的变量,并提出了估计器来估计迭代过程中的泛化误差,并应用于提前停止等问题。通过仿真实验证明了理论结果。
Apr, 2024
我们研究了无重复抽样的最小批量梯度下降在最小二乘回归中的离散动力学。我们证明最小批量梯度下降的动力学和泛化误差取决于原始特征X和一组新特征X̃之间的样本交叉协方差矩阵Z,在学习过程中每个特征都被之前出现的最小批次平均修改。利用这个表示,我们严格证明了最小批量梯度下降的动力学与全批量梯度下降在步长的线性尺度规则下达到了一致的主导阶。我们还研究了连续时间梯度流分析不能检测到的离散化效应,并显示最小批量梯度下降收敛到与步长相关的解,与全批量梯度下降相反。最后,我们利用自由概率理论工具,在假设随机矩阵模型的情况下,数值计算了Z的谱。
Jun, 2024
线性回归问题中,我们分析了离散全批量梯度下降的参数轨迹和期望过度风险,证明了使用学习率调度和有限时间内的早停解与广义岭正则化问题的最小范数解等价,并表明早停对于具有任意频谱和多种学习率调度的一般数据都是有益的。我们给出了最佳停止时间的估计并通过实验证明了估计的准确性。
Jun, 2024
本文研究了线性回归中带Dropout正则化的随机梯度下降(SGD)迭代的渐近理论,填补了现有文献对此问题的理论空白。通过建立几何矩收缩性(GMC),作者展示了Dropout递归函数存在唯一的平稳分布,并提出了针对ASGD Dropout的在线协方差矩阵估计方法,为后续递归推断提供了高效的计算框架。实验结果表明,该方法在大样本情况下的置信区间几乎达到了名义覆盖概率。
Sep, 2024