自然梯度下降比随机梯度下降收敛到更少病态解

Sep, 2024

自然梯度下降比随机梯度下降收敛到更少病态解

NGD converges to less degenerate solutions than SGD

Moosa Saghir, N. R. Raghavendra, Zihe Liu, Evan Ryan Gunter

TL;DR本研究解决了模型复杂性测量的问题，关注如何以更准确的有效维度来评估模型的学习能力。通过引入学习系数$\lambda$，比较自然梯度下降与随机梯度下降训练的模型，发现自然梯度下降所训练的模型具有更高的有效维度，表明其在学习效率上的潜在优势。

Abstract

The number of free parameters, or dimension, of a model is a straightforward way to measure its complexity: a model with more parameters can encode more information. However, this is not an accurate measure of complexity: models capable of memorizing their training data often generalize well despite their high dimension. →

发现论文，激发创造

超参数神经网络海森矩阵的实证分析

我们研究了常见损失曲面的性质，并针对深度学习，通过Hessian矩阵的谱将其分为两个部分，并证明了Sagun等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义，并提出了新的基于超参数冗余的几何角度视角。

Jun, 2017

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和SGD最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致SGD进入更宽的区域。

Jul, 2018

深度模型参数计数的重新思考：有效维度再审视

通过有效维度的视角，我们研究了神经网络在参数计数作为复杂度代理时的一些奇妙的泛化特性，包括双下降现象、模型选择、宽度-深度权衡和损失曲面的功能多样性，发现通过有效维度可以更好地了解深度模型中参数和函数之间的相互作用，并且比其他基于范数或平坦度的泛化度量方法更优。

Mar, 2020

高维双层神经网络中的随机梯度下降相图

本文探讨了梯度下降在高维中非凸优化领域的应用，通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现，研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用，并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。

Feb, 2022

平滑景观增强了 SGD 的信号：学习单指数模型的最优样本复杂度

本文研究在高斯分布下学习单指标模型σ(w⁎·x)，以及学习该模型时信息指数k*的影响，论文提出了利用平滑误差函数与在线随机梯度下降等方法，减少样本数对模型的学习。

May, 2023

SANE：通过锐度调整的有效参数数量优化的梯度下降阶段

本文研究神经网络的Hessian矩阵在训练过程中的应用，提出了SANE用于模型比较，并探究了大学习率下Hessian矩阵的偏移及其对深度神经网络的影响。

May, 2023

深度非参数回归的有效闵可夫斯基维度：函数逼近和统计理论

本文在深度非参数回归的理论研究中提出了一种松弛假设，证明了数据的Effective Minkowski Dimension可以影响训练样本量的复杂度，并在高斯随机场设计数据集上验证了理论的有效性。

Jun, 2023

高维笔记的一击：GLM和多指标模型上SGD学习动力学的ODE

该研究分析了应用于广义线性模型和多索引模型（例如逻辑回归，相位恢复）以及具有一般数据协方差的流式随机梯度下降（SGD）的高维极限动力学。通过引入常微分方程系统，该研究展示了SGD的确定性等效性，并得到了SGD稳定性和收敛性的学习速率阈值。此外，该研究还介绍了一个具有简化扩散系数的随机微分方程（均匀化SGD），用于分析SGD迭代的一般统计动态，并通过数值模拟实例和理论进行了对比验证。

Aug, 2023

通过学习系数量化奇异模型的退化

深度神经网络中的退化度由称为学习系数的数量精确量化，本文通过使用随机梯度 Langevin 动力学近似计算具有局部化版本的学习系数，验证了该方法的准确性，并展示了学习系数能够揭示随机优化器对于更或更少退化临界点的引导偏差。

Aug, 2023

用梯度实现的维度冲击：随机凸优化中的梯度方法的泛化

研究了梯度方法在基础随机凸优化条件下的泛化性能，并关注其与维数的依赖关系。针对全批量梯度下降（GD），通过构建学习问题，在维数为$ d = O（n^2）$的情况下，可以证明经过调整以达到经验风险最优表现的典型GD（使用n个训练样本）在具有常数概率的情况下，收敛为近似经验风险最小化器，且其相对于总体风险具有Ω（1）的过量风险。这个界限对于标准GD需要达到非平凡测试误差的训练样本数量有一个下界Ω（√d），回答了Feldman（2016）和Amir，Koren和Livni（2021b）提出的一个开放问题，表明非平凡的维数依赖性是不可避免的。此外，针对标准的一次遍历随机梯度下降（SGD），我们证明了同样的构建技术在样本复杂度上提供了类似的Ω（√d）下界，以达到非平凡的经验误差，尽管它可以实现最优的测试性能。与之前的工作（Koren，Livni，Mansour和Sherman，2022）相比，这提供了维数依赖性的指数级改进，解决了其中的一个开放问题。

Jan, 2024