adaptive optimization algorithms | BriefGPT

关键词adaptive optimization algorithms

搜索结果 - 7

MM使用模型指数移动平均的 Adam 算法在非凸优化中的效果
理论分析表明，在各种非凸优化设置中，带有模型指数移动平均（EMA）的 Adam 算法的剪切版本能够实现最佳收敛速度，尤其当坐标间尺度差异显著时，Adam 算法的坐标自适应性具有明显优势。
PDFa month ago
基于深度学习的大规模语言模型在自然语言处理任务中的效率优化
通过理论分析大规模语言模型的内部结构和操作机制，探讨 Transformer 及其派生体结构如何在捕获长期依赖时限制计算效率，深入挖掘训练阶段的效率瓶颈，并详细评估自适应优化算法（如 AdamW）、大规模并行计算技术和混合精度训练策略对加速
PDF2 months ago
在轻松平滑条件下的参数无关优化
通过理论和实验证明，Normalized Stochastic Gradient Descent with Momentum 算法在没有先验知识的情况下可以实现（接近）最优复杂度，但复杂度中引入了一个依赖于 (L_1) 的指数项，这是不可避
PDF8 months ago
ICML同质神经网络适应性优化算法的隐含偏差
研究表明采用指数移动平均策略的自适应算法如 Adam 和 RMSProp 可以最大化神经网络的边界，而直接在条件器中加历史平方梯度的 AdaGrad 却不行。
PDF4 years ago
AdaX: 指数长期记忆的自适应梯度下降
本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值，为解决这一问题，我们提出了 AdaX 算法，与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息，实现自适应调节学习率，同时本文也证明了 AdaX 算法在凸
PDF4 years ago
AAAI自适应优化的未调节热身是否足够
本研究分析 Adam 的自适应学习率，提出温升调整学习率的必要性取决于更新项的大小，进而提供一些温升规则，并表明未调整的 Adam 与 RAdam 在典型实际环境中表现基本相同，建议从业者在 Adam 中坚持使用线性温升。
PDF5 years ago
标准化方向保留 Adam
本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam)，通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距，并进一步改善了分类任务中的推广性能。
PDF7 years ago