高效完整矩阵自适应正则化
本文通过压缩梯度信息并将压缩误差反馈到未来迭代,提出了一种有效且易于实现的误差反馈技术,以在不影响收敛的情况下压缩预处理器,从而压缩全矩阵预处理器达两个数量级,实验结果表明,该方法在不影响准确度的情况下,可以有效地消除完全矩阵预处理的内存开销。
Jun, 2023
本文提出一种新算法 ScaledGD,它是梯度下降方法的预处理或对角线缩放版本,其预处理器是自适应且具有最小的计算开销,在低秩矩阵感知,鲁棒主成分分析和矩阵完成等任务中实现了线性收敛,具有优秀的性能表现。
May, 2020
通过对预处理的随机梯度下降(SGD)和岭回归的综合比较研究,我们建立了预处理的 SGD 和岭回归的过度风险界限,并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归,从而展示了预处理的 SGD 的增强正则化效果。
Mar, 2024
该论文提出一种在线凸优化算法,它具有介于使用最优预处理矩阵的算法和使用对角预处理矩阵的算法之间的遗憾,并且其遗憾界不会比对角预处理更差,在特定情况下甚至超过了具有全矩阵预处理的算法的遗憾界。该算法具有与在线梯度下降相同的时间和空间复杂度,并在论文中进行了合成数据和深度学习任务的基准测试。
May, 2019
本研究论文介绍了一种名为 ScaledGD 的新算法,通过合适的预处理能够快速收敛于低秩对象,并在多种任务中保持梯度下降的低迭代成本,同时无论条件数如何,都能以恒定速率线性收敛,突出了在加速非凸统计估计中适当预处理的能力。
Oct, 2023
论文描述了一种框架,用于推导和分析在线优化算法,包括数据相关正则化,称为预调节。该框架捕获和统一了许多关于自适应在线方法的现有文献,包括 AdaGrad 和 Online Newton Step 算法及其对角线版本。我们得到了这些算法的新收敛证明,这些证明比以前的分析要简单得多。我们的框架还揭示了常见随机优化方法中不同预调节更新的基本原理。
Jun, 2017
提出了一种用于核机器的预处理共轭梯度方法,利用预处理器优化了核矩阵的条件数,提高了算法收敛性能和可扩展性。在迭代次数的极限下,该方法精确度高于现有的近似算法,同时在相同的计算成本下,该方法较之前方法表现更好。
Feb, 2016
通过矩阵分解和投影梯度下降算法解决约束最优化问题,提供了一种通用理论框架,当给定适当的初始化时,可以几何级数地收敛到具有统计意义的解,适用于许多具体模型。
Sep, 2015
这篇论文提出了基于近期的数据草图 (sketching) 与优化发展的快速方法,结合 (加速的) mini-batch SGD 与一个叫做两步预处理的新方法,以比当前低精度情况下最先进技术所需的时间复杂度更低的近似解。这个方法也可以扩展到高精度情况,提供一个具有显著时间复杂度改进的 Iterative Hessian Sketch (IHS) 方法的替代实现。基准和合成数据集上的实验表明,我们的方法确实在低精度和高精度情况下都明显优于现有方法。
Feb, 2018