BriefGPT.xyz
Ask
alpha
关键词
hyperparameter scheduler
搜索结果 - 2
Adam 在非均匀平滑性条件下的收敛性:从 SGDM 到更进一步的分离性
本文旨在清楚地区分随机梯度下降法和带动量的 Adam 算法在收敛速度方面的差异。我们证明了在非均匀有界平滑性条件下,Adam 算法相对于随机梯度下降法具有更快的收敛速度。我们的发现表明:(1)在确定性环境中,Adam 算法可以达到确定性一阶
→
PDF
3 months ago
AAAI
关于服务器动量在联邦学习中的作用
提出了一种服务器动量的通用框架,用来解决联邦学习中由于客户端系统和数据异质性引起的收敛问题,并通过严密的收敛分析和大量实验证实了该框架的有效性。
PDF
7 months ago
Prev
Next