通过对预处理的随机梯度下降(SGD)和岭回归的综合比较研究,我们建立了预处理的 SGD 和岭回归的过度风险界限,并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归,从而展示了预处理的 SGD 的增强正则化效果。
Mar, 2024
提出了一种新的方法,通过利用从海森矩阵向量积或参数和梯度的有限差分得到的曲率信息,类似于 BFGS 算法,加速随机梯度下降(SGD)。该方法涉及两个预条件器:一个矩阵无关的预条件器和一个低秩近似预条件器。我们使用一种对随机梯度噪声稳健且不需要线性搜索或阻尼的标准在线更新两个预条件器。为了保持相应的对称性或不变性,我们将预条件器约束为某些连通的李群。李群的等变性质简化了预条件器拟合过程,而其不变性质消除了通常在二阶优化器中需要的阻尼需求。因此,参数更新的学习率和预条件器拟合的步长在自然数值化,它们的默认值在大多数情况下都能很好地工作。我们的方法为提高 SGD 的收敛速度提供了一个有希望的方向,且计算开销较低。我们证明,在多个现代深度学习架构上,基于预条件的 SGD(PSGD)在视觉,自然语言处理和强化学习任务上优于 SoTA。本文提供了复现玩具和大规模实验的代码。
Feb, 2024
本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法,在深度神经网络的训练中可以解决参数空间的病态和过拟合问题,并且在逻辑回归,前馈神经网络和卷积神经网络等模型上,表现出了最先进的性能。
Dec, 2015
本文提出了一种新的方法,通过估计一个预条件器来加速随机梯度下降算法的收敛速度,适用于凸性和非凸性优化,具有稳定梯度降噪的效果,并且经过了大规模问题的有效预条件估计验证,可以在无需调整的情况下,高效解决深度神经网络等复杂问题
本文研究了两种类型的预处理器和预处理随机梯度下降(SGD)方法,这些预处理器可以从一个框架中导出,并且可以在用户指定的任何矩阵李群上使用自然或相对梯度下降进行有效估计。
Sep, 2018
本研究利用自适应参数预处理噪声的方法,将 Fisher Scoring 等高阶曲率信息引入 Stochastic Gradient Langevin Dynamics 中,使其能够有效地跳出深度神经网络中曲率异常的波动区域,与 Adam、AdaGrad 等一阶自适应方法的收敛速度相当,并在测试集上实现了与 SGD 同等的泛化性能。
Jun, 2019
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。
Mar, 2020
通过研究深度神经网络的显式正则化对随机梯度下降的作用,证实显式正则化对于高参数化的神经网络成功的贡献远比随机梯度下降方法更为重要。
本研究提出了一种名为 FNGD 的快速自然梯度下降方法,通过在第一个迭代周期内计算逆运算,避免了在每次迭代中计算逆运算,从而使计算复杂度接近于一阶方法。通过在图像分类和机器翻译任务上进行实证评估,证明了所提出的 FNGD 方法的高效性。
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
May, 2023