基于 Bandit Sampling 的 Adam 深度学习方法
Adam 是一种用于基于梯度的随机目标函数优化的算法,它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少,在对梯度进行对角重缩放时不变,并且非常适合在数据和 / 或参数方面比较大的问题。此外,它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释,并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好,并且与其他随机优化方法相比具有优势。此外,还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外,我们还分析了该算法的理论收敛性质,并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。
Dec, 2014
在本论文中,我们提出了一种新的快速自适应双层框架 (BiAdam) 来解决随机双层优化问题,其中外层问题可能是非凸的,内层问题是强凸的。使用统一自适应矩阵,包括多种自适应学习率,并可灵活使用动量和方差减少技术。同时,我们提出了 BiAdam 算法和 VR-BiAdam 算法,这两种算法的采样复杂度分别为 O(1 /epsilon ^ 4)和 O(1 /epsilon ^ 3)。实验证明了我们算法的高效性。
Jun, 2021
基于随机梯度下降的算法用于训练深度神经网络,但通常收敛速度较慢。为了解决这个挑战,我们利用交替方向乘子法(ADMM)的框架开发了一种新的数据驱动算法,称为批量 ADMM(BADM)。该算法的基本思想是将训练数据划分为批次,进一步将其分成子批次,在此过程中通过聚合更新原始和对偶变量以生成全局参数。我们评估了 BADM 在各种深度学习任务中的性能,包括图建模、计算机视觉、图像生成和自然语言处理。广泛的数值实验表明,与其他先进优化器相比,BADM 实现了更快的收敛速度和优越的测试准确性。
Jun, 2024
通过考虑损失函数信息以获得更好的泛化结果,我们提出了一种 AdamL 优化算法,该算法是 Adam 优化器的一种新变体。我们提供了足够的条件,以及 Polyak-Lojasiewicz 不等式,确保了 AdamL 的线性收敛性。与此分析的副产品,我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明,与 Adam、EAdam 和 AdaBelief 相比,AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时,如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络,这些卓越的性能得到了证实。最后,在普通卷积神经网络的情况下,AdamL 优于其他 Adam 的变体,并且在训练的后期阶段不需要手动调整学习率。
Dec, 2023
该研究论文介绍了深度学习优化领域中的 StochGradAdam 优化器,它是 Adam 算法的一种新变体,核心是梯度采样技术。该方法不仅确保了稳定的收敛性,还充分利用了选择性梯度考虑的优势,通过减轻嘈杂或异常数据的影响以及增强损失函数空间的探索,提高了可靠性收敛。在图像分类和分割任务中,StochGradAdam 优化器表现出优越的性能,相较于传统的 Adam 优化器。通过在每次迭代中精确采样一部分梯度,该优化器被优化用于管理复杂模型。该论文全面探讨了 StochGradAdam 的方法论,从数学基础到偏差校正策略,为深度学习训练技术的有望进展铺平了道路。
Oct, 2023
该研究提出了 BAdam,一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法,用于对大型语言模型进行完全参数微调,通过链式规则属性减少了后向过程的运行时间。实验结果表明,BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外,我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型,结果表明 BAdam 略优于 LoRA,并且在 LOMO 方面表现更好。最后,我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较,即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调,结果表明 BAdam 能够缩小与 Adam 之间的性能差距。
Apr, 2024
提出了一个新的框架,基于自适应优化算法(如 AdaGrad 和 Adam)的新的概率解释,估计神经网络权重的后验分布,并通过实验证明了学习到的不确定性能够正确地与权重的预测能力相关,并且在多臂赌博机的 Thompson 抽样设置中与标准方法的表现相比,Badam 方法的推导不确定性估计的质量是足够好的。
Nov, 2018
本文提出了 AdaBound 和 AMSBound 两种新型变体算法,通过采用动态的学习率边界来实现自适应方法与 SGD 方法之间的平稳过渡,证明了它们的收敛性,并在各种任务和模型上进行了充分的实验,结果表明这两种方法可以消除自适应方法与 SGD 之间的 “普适 - 泛化” 差距,同时在训练初期保持更高的学习速度和取得显著的改进表现。
Feb, 2019
提出了一种名为 AdaBelief 的优化器,通过根据当前梯度方向的 “信任度” 调整步长,同时达到了收敛速度快、泛化性能好和训练稳定的三个目标,并在图像分类和语言建模等领域的实验中证明了其优越性。
Oct, 2020
提出一种修正 Adam 优化器中差分隐私偏差的算法 DP-AdamBC,有效提高了图像、文本和图节点分类任务的最终准确度。
Dec, 2023