通过研究每层的 Hessian eigenspectrum,提出了一种基于 Hessian trace 的新的正则化方法,可以间接地迫使 Stochastic Gradient Descent 收敛到更平的最小值,从而提高了深学习模型的泛化性能。
Dec, 2020
通过随机梯度下降(SGD)和经验 Hessian 和梯度矩阵的谱的联合演化,我们严格地研究了训练动态的联合演化。我们证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外,在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化,并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
Oct, 2023
利用随机矩阵的谱分析最新进展,我们开发了一种新的技术,提供了随机投影矩阵的期望值的确切表达式,这些表达式可以用来表征多种常见的机器学习任务中的降维性能,包括低秩估计和迭代随机优化等。我们的结果适用于多种流行的草图方法,包括高斯和 Rademacher 草图,结果表明,我们推导出的表达式反映了这些草图方法的实际性能,甚至体现了较低阶效应和恒定因子。
Jun, 2020
本文研究了在解决变量数量和数据点数量都很大的有限和最优化问题的 Newton 法的背景下,两种数据空间维数缩减方法:Hessian 子采样和随机 Hadamard 变换。通过一系列数字实验和 Hessian 子采样方法的复杂性分析,揭示了使用共轭梯度方法相对于随机梯度迭代方法的优势。
May, 2017
本文从优化的角度研究素描技术,提出了加速 Hessian 素描和双重随机投影的方法,并通过迭代对原始和对偶公式进行素描来解决大规模问题。在合成和真实数据集上进行了广泛的实验验证。
Oct, 2016
我们研究了常见损失曲面的性质,并针对深度学习,通过 Hessian 矩阵的谱将其分为两个部分,并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
本文研究了随机草图方法,以近似解决带有一般凸约束的最小二乘问题,并提出了一种名为迭代 Hessian 草图的新方法,同时提供了数值模拟实验,包括面部表情分类实验。
Nov, 2014
研究优化过程中深度神经网络中 Hessian 谱的演化对动力学的影响,发现对于非批归一化网络,谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度,而批归一化网络中这两种效应几乎不存在。
Jan, 2019
本研究探讨了经典草稿和黑塞草稿用于解决矩阵 Ridge 回归问题的统计和优化影响,并发现模型平均可大大降低由于草稿造成的统计风险,从而迅速获得近乎最优的解决方案。
Feb, 2017
该研究使用基于矩阵草图的方法来解决在大规模图分析中传统方法遇到的挑战,尤其是无监督学习的社区结构划分问题,实验表明该方法在分配内存中可以获得出色的聚类效果,同时提高了聚类速度。
Jul, 2020