随机梯度下降的信息理论泛化界

Feb, 2021

Information-Theoretic Generalization Bounds for Stochastic Gradient Descent

Gergely Neu

TL;DR本研究研究了随机梯度下降（SGD）这种普遍使用的随机优化方法的泛化特性，提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限，其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。

Abstract

We study the generalization properties of the popular stochastic gradient descent method for optimizing general non-convex loss functions.