Feb, 2019
大批次随机梯度下降与结构协方差噪声的实证研究
Interplay Between Optimization and Generalization of Stochastic Gradient
Descent with Covariance Noise
TL;DR本研究提出一种改善大批量训练的泛化性能并维持最优收敛的方法,即在梯度中添加协方差噪声,通过对噪声矩阵的对数Frobenius范数进行特征提取获得更精确的学习效果表现。实证研究表明该方法不仅可以提高大批量训练的泛化性能,而且不会影响优化性能以及训练时间。