BriefGPT.xyz
Ask
alpha
关键词
batch-size
搜索结果 - 2
大批次随机梯度下降与结构协方差噪声的实证研究
本研究提出一种改善大批量训练的泛化性能并维持最优收敛的方法,即在梯度中添加协方差噪声,通过对噪声矩阵的对数 Frobenius 范数进行特征提取获得更精确的学习效果表现。实证研究表明该方法不仅可以提高大批量训练的泛化性能,而且不会影响优化性
→
PDF
5 years ago
深度神经网络损失函数的极限方向与随机梯度下降步长的关系
使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。
PDF
6 years ago
Prev
Next