BriefGPT.xyz
Feb, 2021
随机梯度下降的信息理论泛化界
Information-Theoretic Generalization Bounds for Stochastic Gradient Descent
HTML
PDF
Gergely Neu
TL;DR
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Abstract
We study the
generalization properties
of the popular
stochastic gradient descent
method for optimizing general
non-convex loss functions
.
→