高效完整矩阵自适应正则化

ICMLJun, 2018

Efficient Full-Matrix Adaptive Regularization

Naman Agarwal, Brian Bullins, Xinyi Chen, Elad Hazan, Karan Singh...

TL;DR提出了一种实用的和有效的修改方式，以使全矩阵自适应正则化成为可能，并提供了非凸优化设置下自适应正则化的新理论分析，其核心算法 GGT 可以高效地计算低秩矩阵的平方根的倒数。在合成任务和标准深度学习基准测试中，初步实验结果表明其迭代收敛速度更快。

Abstract

adaptive regularization methods pre-multiply a descent direction by a preconditioning matrix. Due to the large number of parameters of machine learning problems, full-matrix →

adaptive regularization preconditioning non-convex optimization ggt algorithm deep learning

发现论文，激发创造

误差反馈能够准确压缩预处理器

本文通过压缩梯度信息并将压缩误差反馈到未来迭代，提出了一种有效且易于实现的误差反馈技术，以在不影响收敛的情况下压缩预处理器，从而压缩全矩阵预处理器达两个数量级，实验结果表明，该方法在不影响准确度的情况下，可以有效地消除完全矩阵预处理的内存开销。

Jun, 2023

通过缩放梯度下降加速恶态低秩矩阵估计

本文提出一种新算法 ScaledGD，它是梯度下降方法的预处理或对角线缩放版本，其预处理器是自适应且具有最小的计算开销，在低秩矩阵感知，鲁棒主成分分析和矩阵完成等任务中实现了线性收敛，具有优秀的性能表现。

May, 2020

使用预处理改进最小二乘问题的隐式正则化 SGD

通过对预处理的随机梯度下降（SGD）和岭回归的综合比较研究，我们建立了预处理的 SGD 和岭回归的过度风险界限，并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归，从而展示了预处理的 SGD 的增强正则化效果。

Mar, 2024

在线学习中的无矩阵预处理

该论文提出一种在线凸优化算法，它具有介于使用最优预处理矩阵的算法和使用对角预处理矩阵的算法之间的遗憾，并且其遗憾界不会比对角预处理更差，在特定情况下甚至超过了具有全矩阵预处理的算法的遗憾界。该算法具有与在线梯度下降相同的时间和空间复杂度，并在论文中进行了合成数据和深度学习任务的基准测试。

May, 2019

通过缩放梯度下降可证明地加速病态低秩估计，即使过度参数化

本研究论文介绍了一种名为 ScaledGD 的新算法，通过合适的预处理能够快速收敛于低秩对象，并在多种任务中保持梯度下降的低迭代成本，同时无论条件数如何，都能以恒定速率线性收敛，突出了在加速非凸统计估计中适当预处理的能力。

Oct, 2023

在线和随机优化中自适应正则化的统一方法

论文描述了一种框架，用于推导和分析在线优化算法，包括数据相关正则化，称为预调节。该框架捕获和统一了许多关于自适应在线方法的现有文献，包括 AdaGrad 和 Online Newton Step 算法及其对角线版本。我们得到了这些算法的新收敛证明，这些证明比以前的分析要简单得多。我们的框架还揭示了常见随机优化方法中不同预调节更新的基本原理。

Jun, 2017

矩阵完成的自适应和隐式正则化

本文提出了一种自适应的隐式低秩正则化方法，通过从训练数据中动态捕捉低秩先验来解决固定正则化的局限性，并通过实验验证表明其在各个数据集上都有优秀的表现。

Aug, 2022

核矩阵预处理

提出了一种用于核机器的预处理共轭梯度方法，利用预处理器优化了核矩阵的条件数，提高了算法收敛性能和可扩展性。在迭代次数的极限下，该方法精确度高于现有的近似算法，同时在相同的计算成本下，该方法较之前方法表现更好。

Feb, 2016

投影梯度下降法的快速低秩估计：广义统计和算法保证

通过矩阵分解和投影梯度下降算法解决约束最优化问题，提供了一种通用理论框架，当给定适当的初始化时，可以几何级数地收敛到具有统计意义的解，适用于许多具体模型。

Sep, 2015

大规模约束线性回归再访：通过预条件处理获得更快算法

这篇论文提出了基于近期的数据草图 (sketching) 与优化发展的快速方法，结合 (加速的) mini-batch SGD 与一个叫做两步预处理的新方法，以比当前低精度情况下最先进技术所需的时间复杂度更低的近似解。这个方法也可以扩展到高精度情况，提供一个具有显著时间复杂度改进的 Iterative Hessian Sketch (IHS) 方法的替代实现。基准和合成数据集上的实验表明，我们的方法确实在低精度和高精度情况下都明显优于现有方法。

Feb, 2018