使用预处理改进最小二乘问题的隐式正则化 SGD
此研究探讨一些最优化方法(包括用于神经网络的一阶梯度下降和二阶自然梯度下降)的隐式偏差如何影响其泛化性能,并提出了管理偏差方差的几种方法及在回归问题中的应用。
Jun, 2020
本文提出了一种新的方法,通过估计一个预条件器来加速随机梯度下降算法的收敛速度,适用于凸性和非凸性优化,具有稳定梯度降噪的效果,并且经过了大规模问题的有效预条件估计验证,可以在无需调整的情况下,高效解决深度神经网络等复杂问题
Dec, 2015
提出了一种新的方法,通过利用从海森矩阵向量积或参数和梯度的有限差分得到的曲率信息,类似于 BFGS 算法,加速随机梯度下降(SGD)。该方法涉及两个预条件器:一个矩阵无关的预条件器和一个低秩近似预条件器。我们使用一种对随机梯度噪声稳健且不需要线性搜索或阻尼的标准在线更新两个预条件器。为了保持相应的对称性或不变性,我们将预条件器约束为某些连通的李群。李群的等变性质简化了预条件器拟合过程,而其不变性质消除了通常在二阶优化器中需要的阻尼需求。因此,参数更新的学习率和预条件器拟合的步长在自然数值化,它们的默认值在大多数情况下都能很好地工作。我们的方法为提高 SGD 的收敛速度提供了一个有希望的方向,且计算开销较低。我们证明,在多个现代深度学习架构上,基于预条件的 SGD(PSGD)在视觉,自然语言处理和强化学习任务上优于 SoTA。本文提供了复现玩具和大规模实验的代码。
Feb, 2024
本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法,在深度神经网络的训练中可以解决参数空间的病态和过拟合问题,并且在逻辑回归,前馈神经网络和卷积神经网络等模型上,表现出了最先进的性能。
Dec, 2015
这篇论文提出了基于近期的数据草图 (sketching) 与优化发展的快速方法,结合 (加速的) mini-batch SGD 与一个叫做两步预处理的新方法,以比当前低精度情况下最先进技术所需的时间复杂度更低的近似解。这个方法也可以扩展到高精度情况,提供一个具有显著时间复杂度改进的 Iterative Hessian Sketch (IHS) 方法的替代实现。基准和合成数据集上的实验表明,我们的方法确实在低精度和高精度情况下都明显优于现有方法。
Feb, 2018
利用线性草图方法开发了一种新的预处理方法,将其应用于随机方差减少梯度(SVRG)算法,相对于 SVRG,SDCA 和 SAG 等快速随机方法取得了显著的加速效果。
Feb, 2016
提出了一种用于核机器的预处理共轭梯度方法,利用预处理器优化了核矩阵的条件数,提高了算法收敛性能和可扩展性。在迭代次数的极限下,该方法精确度高于现有的近似算法,同时在相同的计算成本下,该方法较之前方法表现更好。
Feb, 2016
本文研究了两种类型的预处理器和预处理随机梯度下降(SGD)方法,这些预处理器可以从一个框架中导出,并且可以在用户指定的任何矩阵李群上使用自然或相对梯度下降进行有效估计。
Sep, 2018
提出了一种实用的和有效的修改方式,以使全矩阵自适应正则化成为可能,并提供了非凸优化设置下自适应正则化的新理论分析,其核心算法 GGT 可以高效地计算低秩矩阵的平方根的倒数。在合成任务和标准深度学习基准测试中,初步实验结果表明其迭代收敛速度更快。
Jun, 2018
本研究介绍了一种新的算法和理论视角,通过预处理来优化计算 Gaussian 过程中超参数的对数行列式及其导数,证明了其可行性,并在大规模基准问题上进行了实证验证,取得了杰出的效果。
Jul, 2021