关键词adaptive optimization algorithms
搜索结果 - 7
- MM使用模型指数移动平均的 Adam 算法在非凸优化中的效果
理论分析表明,在各种非凸优化设置中,带有模型指数移动平均(EMA)的 Adam 算法的剪切版本能够实现最佳收敛速度,尤其当坐标间尺度差异显著时,Adam 算法的坐标自适应性具有明显优势。
- 基于深度学习的大规模语言模型在自然语言处理任务中的效率优化
通过理论分析大规模语言模型的内部结构和操作机制,探讨 Transformer 及其派生体结构如何在捕获长期依赖时限制计算效率,深入挖掘训练阶段的效率瓶颈,并详细评估自适应优化算法(如 AdamW)、大规模并行计算技术和混合精度训练策略对加速 - 在轻松平滑条件下的参数无关优化
通过理论和实验证明,Normalized Stochastic Gradient Descent with Momentum 算法在没有先验知识的情况下可以实现(接近)最优复杂度,但复杂度中引入了一个依赖于 (L_1) 的指数项,这是不可避 - ICML同质神经网络适应性优化算法的隐含偏差
研究表明采用指数移动平均策略的自适应算法如 Adam 和 RMSProp 可以最大化神经网络的边界,而直接在条件器中加历史平方梯度的 AdaGrad 却不行。
- AdaX: 指数长期记忆的自适应梯度下降
本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值,为解决这一问题,我们提出了 AdaX 算法,与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息,实现自适应调节学习率,同时本文也证明了 AdaX 算法在凸 - AAAI自适应优化的未调节热身是否足够
本研究分析 Adam 的自适应学习率,提出温升调整学习率的必要性取决于更新项的大小,进而提供一些温升规则,并表明未调整的 Adam 与 RAdam 在典型实际环境中表现基本相同,建议从业者在 Adam 中坚持使用线性温升。
- 标准化方向保留 Adam
本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam),通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距,并进一步改善了分类任务中的推广性能。