用于训练数据归因和研究损失景观的梯度草图

Feb, 2024

用于训练数据归因和研究损失景观的梯度草图

Gradient Sketches for Training Data Attribution and Studying the Loss Landscape

PDF

Andrea Schioppa

TL;DR基于神经网络内在维度的研究，我们提出并研究了一种可扩展的草图算法设计空间，并在训练数据归因、Hessian 谱分析和精调预训练语言模型的内在维度计算三个应用中验证了我们方法的有效性。

Abstract

random projections or sketches of gradients and hessian vector products

random projections sketches gradients hessian vector products scalable sketching algorithms

发现论文，激发创造

深入研究深度神经网络的 Hessian 特征谱及其在正则化方面的应用

通过研究每层的 Hessian eigenspectrum，提出了一种基于 Hessian trace 的新的正则化方法，可以间接地迫使 Stochastic Gradient Descent 收敛到更平的最小值，从而提高了深学习模型的泛化性能。

Dec, 2020

高维随机梯度下降与新兴异常特征空间的对齐

通过随机梯度下降（SGD）和经验 Hessian 和梯度矩阵的谱的联合演化，我们严格地研究了训练动态的联合演化。我们证明，在多类高维混合和单层或两层神经网络的两个典型分类任务中，SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外，在多层设置中，这种对齐是逐层进行的，最后一层的异常特征空间在训练过程中发生变化，并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。

Oct, 2023

随机投影的精确表达式：低秩逼近与随机牛顿

利用随机矩阵的谱分析最新进展，我们开发了一种新的技术，提供了随机投影矩阵的期望值的确切表达式，这些表达式可以用来表征多种常见的机器学习任务中的降维性能，包括低秩估计和迭代随机优化等。我们的结果适用于多种流行的草图方法，包括高斯和 Rademacher 草图，结果表明，我们推导出的表达式反映了这些草图方法的实际性能，甚至体现了较低阶效应和恒定因子。

Jun, 2020

Newton-Sketch 和子采样 Newton 方法的研究

本文研究了在解决变量数量和数据点数量都很大的有限和最优化问题的 Newton 法的背景下，两种数据空间维数缩减方法：Hessian 子采样和随机 Hadamard 变换。通过一系列数字实验和 Hessian 子采样方法的复杂性分析，揭示了使用共轭梯度方法相对于随机梯度迭代方法的优势。

May, 2017

基于随机投影的素描重建：一种可证明的用于大规模高维数据的恢复算法

本文从优化的角度研究素描技术，提出了加速 Hessian 素描和双重随机投影的方法，并通过迭代对原始和对偶公式进行素描来解决大规模问题。在合成和真实数据集上进行了广泛的实验验证。

Oct, 2016

超参数神经网络海森矩阵的实证分析

我们研究了常见损失曲面的性质，并针对深度学习，通过 Hessian 矩阵的谱将其分为两个部分，并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义，并提出了新的基于超参数冗余的几何角度视角。

Jun, 2017

迭代 Hessian 草图：约束最小二乘问题的快速准确解近似

本文研究了随机草图方法，以近似解决带有一般凸约束的最小二乘问题，并提出了一种名为迭代 Hessian 草图的新方法，同时提供了数值模拟实验，包括面部表情分类实验。

Nov, 2014

利用海森矩阵特征值密度研究神经网络优化

研究优化过程中深度神经网络中 Hessian 谱的演化对动力学的影响，发现对于非批归一化网络，谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度，而批归一化网络中这两种效应几乎不存在。

Jan, 2019

草图岭回归：优化视角、统计视角和模型平均

本研究探讨了经典草稿和黑塞草稿用于解决矩阵 Ridge 回归问题的统计和优化影响，并发现模型平均可大大降低由于草稿造成的统计风险，从而迅速获得近乎最优的解决方案。

Feb, 2017

分布式草图缩放图聚类

该研究使用基于矩阵草图的方法来解决在大规模图分析中传统方法遇到的挑战，尤其是无监督学习的社区结构划分问题，实验表明该方法在分配内存中可以获得出色的聚类效果，同时提高了聚类速度。

Jul, 2020