梯度下降发生在一个极小的子空间中

Dec, 2018

梯度下降发生在一个极小的子空间中

Gradient Descent Happens in a Tiny Subspace

Guy Gur-Ari, Daniel A. Roberts, Ethan Dyer

TL;DR本文研究表明，在大规模深度学习场景中，梯度在短时间训练后动态地收敛到一个非常小的子空间。该子空间由海森矩阵的前几个特征向量构成，并在长时间训练中大部分保持不变。我们给出了一个分类问题可解模型的例子，并对此效应对优化和学习的潜在影响进行了评论。

Abstract

We show that in a variety of large-scale deep learning scenarios the gradient dynamically converges to a very small subspace after a short period of training. The subspace is spanned by a few top eigenvectors of

deep learning gradient dynamics hessian eigenvectors optimization learning

发现论文，激发创造

识别政策梯度子空间

通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现，我们的研究结果表明，尽管强化学习所固有的数据分布不断变化，梯度子空间仍然存在，这为未来更高效的强化学习提供了有益的方向，例如通过改善参数空间探索或实现二阶优化。

Jan, 2024

浅入深出：对大规模浅层学习的计算视角

本文研究了梯度下降算法在光滑内核中的应用限制，提出了基于特征向量预处理的 EigenPro 迭代优化算法，通过注入小规模二阶信息以改善此限制，从而实现更好的收敛性能。

Mar, 2017

高维随机梯度下降与新兴异常特征空间的对齐

通过随机梯度下降（SGD）和经验 Hessian 和梯度矩阵的谱的联合演化，我们严格地研究了训练动态的联合演化。我们证明，在多类高维混合和单层或两层神经网络的两个典型分类任务中，SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外，在多层设置中，这种对齐是逐层进行的，最后一层的异常特征空间在训练过程中发生变化，并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。

Oct, 2023

一种学习主子空间的新型随机梯度下降算法

本文基于样本输入数据推导出一种算法，可以学习如何从具有潜在主子空间的矩阵中进行分类或降维，适用于神经网络，可以有效地扩展到无限数量的行和列上。

Dec, 2022

隐私学习子空间

该研究探讨了差分隐私算法如何应用于低维线性子空间，以发现数据的低维结构并尽可能避免在隐私或准确性方面的代价。

May, 2021

神经网络梯度下降通常发生在稳定边缘

本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下，训练损失 Hessian 的最大特征值略高于数值 $2/ ext {(步长)}$，训练损失在短时间内呈现非单调行为，但在长时间尺度上保持下降态势。鉴于这种行为与优化领域中的一些传统观念不一致，我们的发现提出了关于这些观念是否与神经网络训练 relevant 的质疑。我们希望我们的研究能够激发未来针对稳定性边缘优化问题的进一步研究。

Feb, 2021

Krylov 子空间下降用于深度学习

本研究提出了一个针对高维模型和大量训练样本的二阶优化方法，使用 Krylov 子空间进行训练加速，并在深度神经网络中的效果优于 SGD、共轭梯度下降和 L-BFGS 等算法，且优于 Hessian Free 方法。

Nov, 2011

损失函数中存在奇异点

通过实验证明，随着数据集的规模增大，损失梯度的大小会形成一个奇点，梯度下降算法将迅速将神经网络接近该奇点，并且进一步的训练发生在该奇点附近。该奇点解释了神经网络损失函数 Hessian 矩阵的各种现象，如在稳定性的边缘进行训练和梯度在顶部子空间中的集中。一旦神经网络接近奇点，顶部子空间对学习的贡献很小，即使它构成了大部分梯度。

Jan, 2022

学习神经网络子空间

本文通过一次性的方法在神经网络中学习高准确度的线、曲线、和单纯形来寻找各种应对方法，达到了独立训练网络套索并在训练成本上类似的计算成本，增加了分类器的鲁棒性和准确性。

Feb, 2021

贝叶斯深度学习的子空间推断

本文提出了一种构建参数空间低维子空间的方法，并在这些子空间中应用椭圆切片采样和变分推断的贝叶斯模型平均方法，以产生准确的预测和良好的预测不确定性。

Jul, 2019