- Adam 算法在可分数据上的隐含偏差
当训练数据是线性可分的时候,Adam 会收敛到一个线性分类器,能够达到最大的 l∞- 边界,并且此收敛在多项式时间内发生,这一结果从理论角度揭示了 Adam 和(随机)梯度下降之间的差异。
- 为什么要热身学习率?机制及改进
通过系统性实验证明,深度学习中热身起始学习率对于训练结果的显著好处在于使网络能够容纳更大的目标学习率,并将网络推向更好条件的损失函数区域,从而提高超参数调优的鲁棒性和最终性能,同时揭示了不同热身阶段的运行模式,根据初始化和参数化的不同,在一 - 在重尾噪声存在时,梯度剪裁改进了 AdaGrad
本文通过证明,在处理偏重尾噪声时,AdaGrad 和 Adam 具有很差的高概率收敛性,提出了一种名为 Clip-RAdaGradD(Clipped Reweighted AdaGrad with Delay)的新版本 AdaGrad,并证 - 通过稀疏和对齐的自适应优化实现通信高效的联邦学习
基于稀疏的共享稀疏掩码(SSM)的稀疏 FedAdam 算法(FedAdam-SSM)在联邦学习中表现出了快速的收敛速度和较高的测试准确性。
- MM使用模型指数移动平均的 Adam 算法在非凸优化中的效果
理论分析表明,在各种非凸优化设置中,带有模型指数移动平均(EMA)的 Adam 算法的剪切版本能够实现最佳收敛速度,尤其当坐标间尺度差异显著时,Adam 算法的坐标自适应性具有明显优势。
- 深度神经网络的变分随机梯度下降
将梯度更新建模为概率模型并利用随机变分推断(SVI)推导出一种高效且有效的更新规则,该方法称为变分随机梯度下降(VSGD)优化器,相较于 Adam 和 SGD,VSGD 在两个图像分类数据集和四种深度神经网络结构上表现更优。
- 广义平滑非凸优化中的 RMSProp 和 Adam 的收敛保证与仿射噪声方差
该论文在最宽松的坐标普适光滑性和仿射噪声方差假设下,为 RMSProp 和 Adam 在非凸优化中提供了首个收敛性分析,首先分析了 RMSProp,然后将分析推广到 Adam,表明它们的迭代复杂度与复杂性下界一致。
- Adam 在非均匀平滑性条件下的收敛性:从 SGDM 到更进一步的分离性
本文旨在清楚地区分随机梯度下降法和带动量的 Adam 算法在收敛速度方面的差异。我们证明了在非均匀有界平滑性条件下,Adam 算法相对于随机梯度下降法具有更快的收敛速度。我们的发现表明:(1)在确定性环境中,Adam 算法可以达到确定性一阶 - 批量大小不变的 Adam
提出了一种批量大小不变的 Adam 版本,用于大规模分布式环境,在这种环境中,小批量被分割成微批次并在工作节点之间分配。
- 重尾类不平衡问题及 Adam 在语言模型上的优越性
Adam 优化算法在大型语言模型上的性能明显优于梯度下降算法,主要原因是语言建模任务中存在的类别不平衡导致优化动态困难。
- 大规模深度网络的变分学习有效性
我们通过大量的证据反驳了普遍观点,即变分学习对于大型神经网络无效。我们展示了一种名为改进变分在线牛顿(IVON)的优化器,在训练 GPT-2 和 ResNets 等大型网络时,始终能够与 Adam 相匹配或胜过它。IVON 的计算成本与 A - 为什么变形器需要 Adam:从 Hessian 的角度看
SGD 在 Transformers 上表现明显不如 Adam,我们通过 Hessian 镜头提供了 SGD 在 Transformers 上失败的解释:(1) Transformers 是 “异质” 的:参数块之间的 Hessian 频谱 - 隐式神经表示的随机训练预处理器
利用曲率感知的对角预处理器,我们提出了一种用于加速训练的随机训练方法,展示了它们在图像、形状重建和神经辐射场等各种信号模态上的有效性。
- 迈向量化 Adam 的预处理效果
Adam 算法的预调节效果和其在减小病态问题方面的应用进行了详细的分析,为二次函数情况下量化了 Adam 算法能够对海森矩阵条件数的依赖程度,在一定条件下能优于梯度下降算法。
- 连续学习的步长优化
在这篇论文中,我们展示了常用的算法(如 RMSProp 和 Adam)在调整步长向量时忽略了其适应过程对整体目标函数的影响,并通过简单问题的实验显示,与 RMSProp 和 Adam 相比,IDBD 算法可以持续改进步长向量。我们讨论了两种 - 缩小 Adam 迭代复杂度上界与下界之间的差距
本文通过导出 Adam 的新收敛保证来推翻现有 Adam 收敛的下界,并且证明当使用适当的超参数时,Adam 满足一阶优化器的下界和上界,为 Adam 的收敛性建立了严密的上界。
- ADAM 在非凸背景下的常数步长收敛性:一个简单的证明
我们在非凸设置中对 ADAM 的常数步长版本进行理论分析,证明了步长达到几乎肯定的渐近收敛性所需的充分条件,并提供了在处理平滑的非凸函数时确定性 ADAM 达到近似临界性的运行时界限。
- Adam 隐式偏差研究
前人的研究表明,通过反向误差分析可以找到逼近梯度下降轨迹的常微分方程(ODEs)。本文证明 RMSProp 和 Adam 中存在类似的隐式正则化现象,取决于超参数和训练阶段,并与之前的研究有所不同。我们还进行了数值实验,并讨论了这些事实如何 - ICLR张量程序 IVb:无限宽度极限下的自适应优化
超越随机梯度下降(SGD),在 Adam 等自适应优化器训练的宽神经网络中出现了哪些新现象?我们展示了:与 SGD 中相同的特征学习和核行为二分法同样适用于各种优化器,包括 Adam—— 尽管使用了非线性的 “核” 概念。我们推导出了相应的 - 非凸目标的 Adam 算法收敛性:放宽超参数和非遍历情况
本论文通过探索超参数设置并应对非自回归收敛对实际应用的挑战,建立了 Adam 在非凸优化问题中的理论基础,包括精确定义自回归和非自回归收敛、对非自回归收敛的优势强调、可松弛选择超参数的弱充分条件确保自回归收敛、实现了 Adam 的近似确定自