BriefGPT.xyz
Ask
alpha
关键词
backward error analysis
搜索结果 - 3
Adam 隐式偏差研究
前人的研究表明,通过反向误差分析可以找到逼近梯度下降轨迹的常微分方程(ODEs)。本文证明 RMSProp 和 Adam 中存在类似的隐式正则化现象,取决于超参数和训练阶段,并与之前的研究有所不同。我们还进行了数值实验,并讨论了这些事实如何
→
PDF
10 months ago
随机梯度下降中的隐式规则化:从单目标到两人博弈
本篇研究提出了一种基于离散优化器的连续时间流的后向误差分析方法,用于构建可以被写成梯度形式的矢量场的流,从而找到以前未知的隐式正则化效应。
PDF
a year ago
隐式梯度正则化
本文研究了梯度下降算法在优化神经网络时的表现,发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化,这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值,使解决方案对噪声参数扰动有很好的鲁棒性,这一理论有助于解决
→
PDF
4 years ago
Prev
Next