将随机梯度推向二阶方法 —— 通过非线性变换的反向传播学习

ICLRJan, 2013

将随机梯度推向二阶方法 —— 通过非线性变换的反向传播学习

Pushing Stochastic Gradient towards Second-Order Methods -- Backpropagation Learning with Transformations in Nonlinearities

PDF

Tommi Vatanen, Tapani Raiko, Harri Valpola, Yann LeCun

TL;DR本研究提出针对神经网络的三个转换方法，以近似二阶优化方法提高学习速度，但第三个转换可能因收敛到局部最优解且隐藏神经元的输入和输出接近零而对性能造成损害。

Abstract

Recently, we proposed to transform the outputs of each hidden neuron in a multi-layer perceptron network to have zero output and zero slope on average, and use separate shortcut connections to model the linear de

multi-layer perceptron network shortcut connections stochastic gradient second-order optimization methods local optimum

发现论文，激发创造

通过随机神经元估算或传播梯度以进行条件计算

研究使用四种方法解决带有随机神经元和硬非线性的神经网络中的梯度估计问题，其中一种最小方差无偏梯度估计器（REINFORCE 算法的一种特殊情况）适用于随机二元神经元，另一种方法将二元随机神经元的操作分解为随机二元部分和平滑可微部分，在稀疏随机单元形成分布式表示的条件计算中可以得到更低的计算成本。

Aug, 2013

深度学习可扩展的二阶优化

本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Feb, 2020

离散与反向传播之间的桥梁：Through-Straight 及其拓展

本文提出 ReinMax 方法，通过集成 Heun's Method 来解决离散潜变量生成参数的梯度近似问题，该方法在结构化输出预测和无监督生成建模任务中均获得了比现有技术更好的结果，包括 ST 和 ST Gumbel-Softmax。

Apr, 2023

快速二阶随机反向传播在变分推断中的应用

提出了一种受高斯反向传播启发的二阶（海森或无海森）优化方法，该方法通过低复杂度的再参数化技巧推广随机反向传播的梯度计算，实现了不依赖模型的可扩展变分推断。将其应用于贝叶斯逻辑回归和变分自编码器（VAE）问题时，获得了实际，可扩展和模型无关的结果。

Sep, 2015

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

神经网络的对角缩放

定义了一种二阶神经网络随机梯度训练算法，其块对角结构有效地实现了单元激活的归一化，并研究了该算法在稳健性方面的不足之处，揭示了步长缩放的新方式以及处理成本曲率快速变化的重要性。

May, 2017

通过随机神经元估算或传播梯度

本文介绍了如何通过两种方法解决通过随机神经元的输入推算出相应梯度的问题，并提出了一种可行的解决方法，可应用于梯度估计与强化学习中，同时提出了一种新型硬判定单元的高偏差、低方差梯度估计方法，可用于实现稀疏表示和稀疏梯度。

May, 2013

线性时间内的机器学习二阶随机优化

本文提出了一种可以匹配第一阶段方法迭代成本的机器学习优化问题的二阶随机方法，具有线性时间实现的稀疏输入数据。

Feb, 2016

深层模型零阶优化的随机两点方法

该研究介绍了零阶方法在大型深度模型优化中的应用，提出了一种高效的随机双点（S2P）方法及其加速变种（AS2P），通过利用新的收敛性质，成功优化了大型深层模型的目标函数，相对于标准方法在训练中加快了 2 倍的速度。

Feb, 2024

神经网络优化路径的简单几何

本研究探讨了神经网络中采样梯度沿优化路径的基本几何特性，发现这些特性在大多数训练期间保持稳定动态，并提供了线性收敛的理论保证和反映经验实践的学习率计划。

Jun, 2023