Jun, 2024

Adam 算法在可分数据上的隐含偏差

TL;DR当训练数据是线性可分的时候,Adam 会收敛到一个线性分类器,能够达到最大的 l∞- 边界,并且此收敛在多项式时间内发生,这一结果从理论角度揭示了 Adam 和(随机)梯度下降之间的差异。