预处理随机梯度下降
本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法,在深度神经网络的训练中可以解决参数空间的病态和过拟合问题,并且在逻辑回归,前馈神经网络和卷积神经网络等模型上,表现出了最先进的性能。
Dec, 2015
提出了一种新的方法,通过利用从海森矩阵向量积或参数和梯度的有限差分得到的曲率信息,类似于 BFGS 算法,加速随机梯度下降(SGD)。该方法涉及两个预条件器:一个矩阵无关的预条件器和一个低秩近似预条件器。我们使用一种对随机梯度噪声稳健且不需要线性搜索或阻尼的标准在线更新两个预条件器。为了保持相应的对称性或不变性,我们将预条件器约束为某些连通的李群。李群的等变性质简化了预条件器拟合过程,而其不变性质消除了通常在二阶优化器中需要的阻尼需求。因此,参数更新的学习率和预条件器拟合的步长在自然数值化,它们的默认值在大多数情况下都能很好地工作。我们的方法为提高 SGD 的收敛速度提供了一个有希望的方向,且计算开销较低。我们证明,在多个现代深度学习架构上,基于预条件的 SGD(PSGD)在视觉,自然语言处理和强化学习任务上优于 SoTA。本文提供了复现玩具和大规模实验的代码。
Feb, 2024
本研究利用自适应参数预处理噪声的方法,将 Fisher Scoring 等高阶曲率信息引入 Stochastic Gradient Langevin Dynamics 中,使其能够有效地跳出深度神经网络中曲率异常的波动区域,与 Adam、AdaGrad 等一阶自适应方法的收敛速度相当,并在测试集上实现了与 SGD 同等的泛化性能。
Jun, 2019
通过对预处理的随机梯度下降(SGD)和岭回归的综合比较研究,我们建立了预处理的 SGD 和岭回归的过度风险界限,并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归,从而展示了预处理的 SGD 的增强正则化效果。
Mar, 2024
该研究提出了一种新颖的自适应步长方法来解决随机梯度下降(SGD)中的问题,通过利用我们识别出的可追踪的量(梯度的 Lipschitz 常数和搜索方向的局部方差的概念),我们的发现为随机优化提供了几乎无需调参的算法,该算法在应用于二次问题时具有可证明的收敛性质,并在经典图像分类任务中展现出真正的问题自适应行为。我们的框架还可以包含预处理器,从而实现对随机二阶优化方法的自适应步长的实现。
Nov, 2023
本文研究了两种类型的预处理器和预处理随机梯度下降(SGD)方法,这些预处理器可以从一个框架中导出,并且可以在用户指定的任何矩阵李群上使用自然或相对梯度下降进行有效估计。
Sep, 2018
扩展了 Stochastic Gradient Descent with Polyak Step-size (SPS) 方法,使用 Hutchinson's 方法、Adam 和 AdaGrad 等预处理技术来提高其在糟糕缩放和 / 或病态数据集上的性能。
Oct, 2023
该论文提出了一种基于 equilibration preconditioner 的新型自适应学习率方法:ESGD,与 RMSProp 相比收敛速度更快,在非凸问题上表现更好。
Feb, 2015
本研究论文介绍了一种名为 ScaledGD 的新算法,通过合适的预处理能够快速收敛于低秩对象,并在多种任务中保持梯度下降的低迭代成本,同时无论条件数如何,都能以恒定速率线性收敛,突出了在加速非凸统计估计中适当预处理的能力。
Oct, 2023