BriefGPT.xyz
Jun, 2020
神经网络中的豪斯多夫维数、重尾及泛化
Hausdorff Dimension, Stochastic Differential Equations, and Generalization in Neural Networks
HTML
PDF
Umut Şimşekli, Ozan Sener, George Deligiannidis, Murat A. Erdogdu
TL;DR
本文提出了一种使用Feller过程来逼近SGD轨迹以及使用Hausdorff维度控制相关广义误差的学习理论框架,同时提出了使用Feller过程的尾部指数作为“容量度量”的概念,可用于估计广义误差,并且与参数数量不同于现有文献中的容量度量。
Abstract
Despite its success in a wide range of applications, characterizing the
generalization properties
of
stochastic gradient descent
(SGD) in non-convex
→