基于损失梯度高斯宽度的泛化和优化保证

Jun, 2024

基于损失梯度高斯宽度的泛化和优化保证

Loss Gradient Gaussian Width based Generalization and Optimization Guarantees

Arindam Banerjee, Qiaobo Li, Yingxue Zhou

TL;DR通过 Loss Gradient Gaussian Width (LGGW) 的复杂度度量，我们提出一种直接基于 LGGW 的泛化保证方法，在梯度支配条件下实现，其在深度模型中进行实证研究并证明其有效性。同时，我们展示了有限和优化的样本重用并不会导致经验梯度偏离总体梯度，只要 LGGW 较小。这些基于 LGGW 的优化和泛化保证是首次提出的，避免了基于预测器 Rademacher 复杂性的分析缺陷，并对深度模型的定量界限提供了重要前景。

Abstract

Generalization and optimization guarantees on the population loss in machine learning often rely on uniform convergence based analysis, typically based on the Rademacher complexity of the predictors. The rich representation power of modern models has led to concerns about this approach

generalization guarantees optimization guarantees loss gradient gaussian width deep models lggw

发现论文，激发创造

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

从群体损失的梯度流到随机梯度下降学习

本文通过分析 Gradient Flow 在目标函数收敛时的性质，提供了 SGD 收敛的一般条件，研究了 Lyapunov potentials 与目标函数几何性质的关联，并给出了 SGD 收敛的保证，适用于一些复杂问题。

Oct, 2022

多层神经网络梯度下降的泛化保证

对梯度下降训练的神经网络的稳定性和泛化性进行研究，探讨不同网络缩放参数的影响，发现在稳定性和超参数化方面的一些新的规律，并证明了过度参数化的神经网络可以达到所需的风险水平。

May, 2023

神经网络中带全局收敛保证的特征学习

该研究通过梯度流优化模型，研究宽神经网络中的特征学习和训练损失收敛问题，证明了一定条件下训练损失会以线性速率收敛于零，并展示了该模型的学习特性和推广能力。

Apr, 2022

用梯度实现的维度冲击：随机凸优化中的梯度方法的泛化

研究了梯度方法在基础随机凸优化条件下的泛化性能，并关注其与维数的依赖关系。针对全批量梯度下降（GD），通过构建学习问题，在维数为 $ d = O（n^2）$ 的情况下，可以证明经过调整以达到经验风险最优表现的典型 GD（使用 n 个训练样本）在具有常数概率的情况下，收敛为近似经验风险最小化器，且其相对于总体风险具有 Ω（1）的过量风险。这个界限对于标准 GD 需要达到非平凡测试误差的训练样本数量有一个下界 Ω（√d），回答了 Feldman（2016）和 Amir，Koren 和 Livni（2021b）提出的一个开放问题，表明非平凡的维数依赖性是不可避免的。此外，针对标准的一次遍历随机梯度下降（SGD），我们证明了同样的构建技术在样本复杂度上提供了类似的 Ω（√d）下界，以达到非平凡的经验误差，尽管它可以实现最优的测试性能。与之前的工作（Koren，Livni，Mansour 和 Sherman，2022）相比，这提供了维数依赖性的指数级改进，解决了其中的一个开放问题。

Jan, 2024

深度卷积神经网络的泛化和优化性能理解

本文理论分析卷积神经网络（CNN）的泛化性能、梯度下降训练算法的优化保证，证明了 CNN 的泛化误差由自由度和体系结构参数决定，并证明了梯度下降算法的近似稳定点是人口风险的近似稳定点，保证了 CNN 的良好泛化性能。

May, 2018

非凸优化中具有概率保障的随机梯度下降泛化误差界

本文探讨了深度学习模型的一种优化方法 —— 随机梯度下降在泛化能力上的稳定性，提出了一种基于梯度方差的稳定性指标，并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题，得到了一系列改进的泛化误差界。

Feb, 2018

使用梯度下降和弱凸损失进行学习

本研究探讨了当经验风险为弱凸函数时，梯度下降的学习性能，并通过将最小负特征值应用于控制梯度下降的稳定性，从而证明了与先前的研究相比，其持有更广范围步长的一般化误差界。当经验风险满足局部弱凸性时，可以通过对网络进行归一化来控制误差，其中，两层神经网络的经验风险可以满足局部弱凸性。通过权衡网络复杂度和缩放，深入探讨了神经网络缩放的隐式偏差，并得出实验结果的支持。

Jan, 2021

随机梯度下降的信息理论泛化界

本研究研究了随机梯度下降（SGD）这种普遍使用的随机优化方法的泛化特性，提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限，其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。

Feb, 2021

图像分类中重新思考特征分布的损失函数

本研究提出了一种基于大边界高斯混合（L-GM）损失函数的深度神经网络分类方法，相较于常规的 softmax cross-entropy 损失函数，通过加入分类边界和似然正则化，提高了分类准确性以及对于训练特征分布的建模精度，可以用于区分异常输入如对抗性样本等。经过 MNIST、CIFAR、ImageNet 和 LFW 等基准测试和对抗性样本测试，证明了本方法的有效性。

Mar, 2018