BriefGPT.xyz
Ask
alpha
关键词
generalization benefit
搜索结果 - 1
ICLR
随机梯度下降中隐式正则化的起源
本文研究随机梯度下降(SGD)的学习率对准确性的影响,证明当学习率适当大时,SGD 的迭代路径离梯度下降路径更近,这种现象可通过引入一个隐式正则化项进行解释,并通过实验证明在适当的学习率下包含隐式正则化项可以提高测试准确性。
PDF
3 years ago
Prev
Next