使用随机无 Hessian 优化训练神经网络

ICLRJan, 2013

使用随机无 Hessian 优化训练神经网络

Training Neural Networks with Stochastic Hessian-Free Optimization

Ryan Kiros

TL;DR本文研究了利用曲率 - 向量积构建更新方向的 Hessian-free（HF）优化方法，在梯度和曲率小批量下实现的随机 HF 并添加防止过拟合的 dropout 方法，实现了介于 SGD 和 HF 之间的中间结果，对分类和深度自编码器实验都有良好表现。

Abstract

Hessian-free (HF) optimization has been successfully used for training deep autoencoders and recurrent networks. HF uses the conjugate gradient algorithm to construct update directions through curvature-vector products that can be computed on the same order of time as gradients. In thi

hessian-free optimization stochastic hf curvature-vector products dropout deep autoencoder

发现论文，激发创造

深度多维循环神经网络学习的无 Hessian 优化

本文通过使用 Hessian-free 优化算法，采用凸近似方式解决 CTC 目标函数的非凸性问题，成功深度训练了一个多达 15 层的 MDRNN，从而在序列标注方面取得了显著的性能提升。

Sep, 2015

Krylov 子空间下降用于深度学习

本研究提出了一个针对高维模型和大量训练样本的二阶优化方法，使用 Krylov 子空间进行训练加速，并在深度神经网络中的效果优于 SGD、共轭梯度下降和 L-BFGS 等算法，且优于 Hessian Free 方法。

Nov, 2011

基于 Hessian 的 SGD 分析：深度网络的动力学和泛化

本文通过对训练损失函数的海森矩阵及其相关量的分析，探讨了随机梯度下降（SGD）的优化动态和泛化行为等三个问题，并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。

Jul, 2019

快速二阶随机反向传播在变分推断中的应用

提出了一种受高斯反向传播启发的二阶（海森或无海森）优化方法，该方法通过低复杂度的再参数化技巧推广随机反向传播的梯度计算，实现了不依赖模型的可扩展变分推断。将其应用于贝叶斯逻辑回归和变分自编码器（VAE）问题时，获得了实际，可扩展和模型无关的结果。

Sep, 2015

训练深度神经网络的实用拟牛顿方法

本文提出了一种使用 Kronecker 乘积近似 Hessian 矩阵和结构化梯度的 Kronecker 分块对角线 BFGS 和 L-BFGS 方法用于深度神经网络训练，通过测试验证其性能优于或与 KFAC 和一阶随机方法相当。

Jun, 2020

使用部分海森矩阵的 SGD 优化深度神经网络

基于二阶算法和 Hessian 矩阵的优化器 SGD-PH 在深度神经网络训练中取得了良好的性能。

Mar, 2024

统一随机梯度下降和拟牛顿法的快速大规模优化

该研究提出了一种算法，它结合了随机梯度下降的计算效率和拟牛顿法利用的二阶曲率信息，通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法适用于高维度优化问题，通过将这些二次近似值存储和操作在一个共享的、时变的、低维度子空间中，保持了计算可行性和限制了内存需求，且需要很少或不需要调整超参数。该算法与早期的随机二阶技术相反，早期技术将每个贡献函数的 Hessian 视为完整 Hessian 的噪声近似，而不是直接估计的目标。在七个不同的优化问题上进行了实验性的改进收敛表现，算法已发布为开源 Python 和 MATLAB 软件包。

Nov, 2013

基于海森矩阵感知的贝叶斯优化在决策系统中的应用

优化决策系统的许多方法依赖于基于梯度的方法，然而在缺乏信息或反馈不明确的情况下，这些方法可能导致性能不佳。为了解决高维复杂决策系统中的挑战，我们提出了一个紧凑的多层架构模型来建模角色之间的互动，同时引入了 Hessian-aware Bayesian Optimization 以高效优化参数化了大量参数的多层架构。实验证明，我们的方法（HA-GP-UCB）在资源限制和反馈错误设置下能够有效工作。

Aug, 2023

利用辅助信息进行优化

探讨了最小化梯度难以计算或有限可用性的目标函数 $f (x)$ 的基本优化问题，给定某些较为廉价或更可用的辅助边函数 $h (x)$ 来最小化。提出了两种新的通用算法，证明只需在目标和边信息之间进行 Hessian 相似性的假设即可从该框架中受益。

Jun, 2022

使用复步方向导数的二阶神经网络训练

本文提出了一个基于二阶数值优化的深度学习算法。该算法使用复合数算法流的有限差分（CDSD）计算海森矩阵，通过监控泰勒级数的逼近误差，调整步长大小，实现了优化的同时保存良好的局部和全局收敛性，在深度学习任务中表现优异。

Sep, 2020