通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现,我们的研究结果表明,尽管强化学习所固有的数据分布不断变化,梯度子空间仍然存在,这为未来更高效的强化学习提供了有益的方向,例如通过改善参数空间探索或实现二阶优化。
Jan, 2024
本文研究了梯度下降算法在光滑内核中的应用限制,提出了基于特征向量预处理的 EigenPro 迭代优化算法,通过注入小规模二阶信息以改善此限制,从而实现更好的收敛性能。
Mar, 2017
通过随机梯度下降(SGD)和经验 Hessian 和梯度矩阵的谱的联合演化,我们严格地研究了训练动态的联合演化。我们证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外,在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化,并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
Oct, 2023
本文基于样本输入数据推导出一种算法,可以学习如何从具有潜在主子空间的矩阵中进行分类或降维,适用于神经网络,可以有效地扩展到无限数量的行和列上。
Dec, 2022
该研究探讨了差分隐私算法如何应用于低维线性子空间,以发现数据的低维结构并尽可能避免在隐私或准确性方面的代价。
May, 2021
本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下,训练损失 Hessian 的最大特征值略高于数值 $2/ ext {(步长)}$,训练损失在短时间内呈现非单调行为,但在长时间尺度上保持下降态势。鉴于这种行为与优化领域中的一些传统观念不一致,我们的发现提出了关于这些观念是否与神经网络训练 relevant 的质疑。我们希望我们的研究能够激发未来针对稳定性边缘优化问题的进一步研究。
Feb, 2021
本研究提出了一个针对高维模型和大量训练样本的二阶优化方法,使用 Krylov 子空间进行训练加速,并在深度神经网络中的效果优于 SGD、共轭梯度下降和 L-BFGS 等算法,且优于 Hessian Free 方法。
Nov, 2011
通过实验证明,随着数据集的规模增大,损失梯度的大小会形成一个奇点,梯度下降算法将迅速将神经网络接近该奇点,并且进一步的训练发生在该奇点附近。该奇点解释了神经网络损失函数 Hessian 矩阵的各种现象,如在稳定性的边缘进行训练和梯度在顶部子空间中的集中。一旦神经网络接近奇点,顶部子空间对学习的贡献很小,即使它构成了大部分梯度。
Jan, 2022
本文通过一次性的方法在神经网络中学习高准确度的线、曲线、和单纯形来寻找各种应对方法,达到了独立训练网络套索并在训练成本上类似的计算成本,增加了分类器的鲁棒性和准确性。
本文提出了一种构建参数空间低维子空间的方法,并在这些子空间中应用椭圆切片采样和变分推断的贝叶斯模型平均方法,以产生准确的预测和良好的预测不确定性。
Jul, 2019