线性时间内的机器学习二阶随机优化

Feb, 2016

线性时间内的机器学习二阶随机优化

Second-Order Stochastic Optimization for Machine Learning in Linear Time

Naman Agarwal, Brian Bullins, Elad Hazan

TL;DR本文提出了一种可以匹配第一阶段方法迭代成本的机器学习优化问题的二阶随机方法，具有线性时间实现的稀疏输入数据。

Abstract

First-order stochastic methods are the state-of-the-art in large-scale machine learning optimization owing to efficient per-iteration comp

stochastic methods optimization machine learning second-order per-iteration cost

发现论文，激发创造

深度学习可扩展的二阶优化

本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Feb, 2020

非凸机器学习的二阶优化：一个经验性研究

本文研究了一类基于牛顿方法的优化算法在非凸机器学习问题中的应用，展示了其可以更好地利用曲率信息来逃离平坦区域和鞍点，并在泛化性能方面表现相当于或优于手动调整学习率的随机梯度下降算法。

Aug, 2017

一个可靠的分布式二阶算法

本文提出了一种新的分布式广义线性模型训练算法，只需计算各工作器上的 Hessian 矩阵的对角块，然后提出了一种自适应方法以应对近似信息并展示了其在多个基准数据集上表现出的最新结果并显著优于现有算法。

Jun, 2018

大规模机器学习优化方法

本文讨论了数值优化算法在机器学习应用中的过去、现在和未来。通过文本分类和深度神经网络训练的案例研究，探讨优化问题在机器学习中的出现和挑战，强调了大规模机器学习环境下随机梯度方法的重要性和传统梯度优化方法的局限性。基于这种视角，提出一种简单，通用的随机梯度算法，并讨论其实际表现和改进机会。最后，针对大规模机器学习的下一代优化方法进行了探讨，包括降低随机方向噪声的技术和使用二阶导数近似的方法两大研究方向。

Jun, 2016

小批量处理对二阶优化器的泛化性能有所改善

深度神经网络的训练对计算资源消耗较大，为了提高性能，机器学习科学家通常使用随机一阶及二阶优化方法，通过经验研究发现，训练中的批大小对方法的最大准确率有显著影响，并且二阶优化方法在特定批大小下表现出更低的方差，可能需要更少的超参数调整，从而减少了模型训练的总体时间。

May, 2023

强高概率二阶收敛的随机非凸优化

本文研究带有非凸随机函数的随机非凸优化，并提出一种称为 NCG-S 的新型更新步骤，可以在高概率下实现二阶收敛，所提出的随机算法是首个具有高概率二阶收敛和几乎是线性时间复杂度的方法。

Oct, 2017

PETScML：科学机器学习中用于训练回归问题的二阶求解器

最近几年，我们见证了科学机器学习作为一种数据驱动的工具的兴起，通过深度学习技术分析计算科学和工程应用产生的数据。这些方法的核心是监督训练算法，用于学习神经网络实现，这是一个非常非凸的优化问题，通常使用随机梯度方法来解决。然而，科学机器学习训练问题与深度学习实践不同，它们具有更大量的平滑数据和更好的经验风险函数特征，使它们适用于无约束优化的常规求解器。我们介绍了一个轻量级的软件框架，建立在可移植和可扩展科学计算工具包之上，以弥合深度学习软件和无约束最小化的常规求解器之间的差距。我们通过实验证明，基于高斯 - 牛顿近似 Hessian 的信任域方法在学习科学机器学习技术和测试用例的代理模型时，可以显著提高回归任务中产生的泛化误差。所有被测试的常规二阶求解器，包括 L-BFGS 和带有线搜索的非精确牛顿法，无论在成本还是准确性上都与用于验证代理模型的自适应一阶方法相比较有利。

Mar, 2024

基于二阶方法的更快差分隐私凸优化

本文研究了使用一阶和二阶优化方法的隐私保护凸优化问题，其中开发了一种基于正则化的三次牛顿法的私有算法，并在逻辑斯蒂回归问题上获得了性能优越性。

May, 2023

自适应和最优的二阶乐观方法在极小极大优化中的应用

我们提出了自适应的、无需线搜索的二阶方法，以最优收敛速度解决凸凹最大最小问题，通过自适应步长，我们的算法采用简单的更新规则，每次迭代仅需解一个线性系统，消除了线搜索和回溯机制的需求，具体而言，我们基于乐观法则并将其与二阶信息合理地结合，与常见的自适应方案不同的是，我们递归地将步长定义为梯度范数和乐观更新中的预测误差的函数，我们首先分析了一种方案，其中步长需要知道 Hessian 的 Lipschitz 常数，在额外假设梯度连续 Lipschitz 的情况下，我们通过局部跟踪 Hessian 的 Lipschitz 常数并确保迭代保持有界，进一步设计了一个无需参数的版本，我们还通过将其与现有的二阶算法进行比较来评估我们算法的实际性能。

Jun, 2024

随机一阶方法：通过潜力函数的非渐近和计算机辅助分析

本文提供了一种新颖的计算机辅助技术，用于系统地分析面向优化的一阶方法，并且与以往的工作相比，该方法特别适用于处理次线性收敛率和随机预言机。该技术依赖于半定规划和潜力函数，并允许同时获得算法行为的最坏情况保证，并帮助选择适当的参数以调整其最坏情况表现。

Feb, 2019