Jul, 2017

非凸学习的SGLD泛化界限:两种理论视角

TL;DR本文提出了两个理论,分别使用稳定性和PAC-Bayesian结果的非渐进离散时间分析,研究了Stochastic Gradient Langevin Dynamics(SGLD)在非凸目标下的泛化误差,其边界没有隐含依赖于参数的维数、规范或其他容量测量,优美地刻画了非凸设置中“快速训练保证泛化”的现象