Jun, 2020

形状对噪声协方差隐式偏差的影响

TL;DR本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。