CAME:基于置信度的自适应内存高效优化
提出了一种名为 MICROADAM 的 Adam 优化器新变种,它专门最小化内存开销,同时保持理论收敛性保证。通过在优化器状态之前压缩梯度信息来显著减少内存占用。使用分布式优化中的经典错误反馈机制来控制压缩误差,并实现实际的内存收益。证明了这种方法具有与 AMSGrad 相媲美的理论收敛性保证,并提供良好的实际性能。在 GPU 上有效实现的 MICROADAM 在百万级(BERT)和十亿级(LLaMA)模型上,与未压缩的 Adam 基准相比,提供了实用的竞争性收敛性,并具有更低的内存使用和类似的运行时间。
May, 2024
提出了一种新的 Adam 的记忆增强版本,通过在训练过程中使用关键动量项的缓冲区,推动探索更平坦的最小值,从而提高了标准监督语言建模和图像分类任务的性能。
Jul, 2023
大型语言模型通常需要较大的内存来训练,但低内存优化(LOMO)技术通过引入自适应学习率以及矩阵分解等方法,降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。
Oct, 2023
该研究提出了 BAdam,一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法,用于对大型语言模型进行完全参数微调,通过链式规则属性减少了后向过程的运行时间。实验结果表明,BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外,我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型,结果表明 BAdam 略优于 LoRA,并且在 LOMO 方面表现更好。最后,我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较,即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调,结果表明 BAdam 能够缩小与 Adam 之间的性能差距。
Apr, 2024
通过将共轭普通梯度方法与 Adam 相结合,提出了一种名为 CG-like-Adam 的用于深度学习的新型优化算法,以加速训练并提升深度神经网络的性能。在该算法中,用共轭普通梯度方法替代了 Adam 的一阶和二阶矩估计,数值实验证明了该算法在 CIFAR10/100 数据集上的优越性。
Apr, 2024
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
Apr, 2018
使用 Confident Adaptive Language Modeling(CALM)动态分配不同量的计算资源,早期退出解码以减少计算,从而在维持高性能的同时最多可提速三倍,理论分析和实验表明其在减少计算方面的有效性。
Jul, 2022
Adapprox 是一种使用随机低秩矩阵近似来更有效准确地近似 Adam 的二次矩的新方法,在 GPT-2 训练和下游任务中,Adapprox 相比 AdamW 能够实现 34.5%到 49.9%和 33.8%到 49.9%的内存节省,并且它通过提高收敛速度和改进下游任务性能相对于其他方法。
Mar, 2024
通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架,本文致力于改进 ZO 方法的性能和收敛性,主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题,通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。
Jun, 2024