Ranger21：一种协同深度学习优化器

Jun, 2021

Ranger21：一种协同深度学习优化器

Ranger21: a synergistic deep learning optimizer

Less Wright, Nestor Demeure

TL;DR介绍了一种新的优化器，Ranger21，它结合了 AdamW 和八个组件，能够提供显著的验证准确性和训练速度的提高，并且能够顺利地训练 ResNet50。

Abstract

As optimizers are critical to the performances of neural networks, every year a large number of papers innovating on the subject are published. However, while most of these publications provide incremental improv

optimizers neural networks ranger21 adamw training speed

发现论文，激发创造

可扩展且泛化的学习优化器

通过引入层次循环神经网络优化算法和基于元学习的小任务集，实现了一个新的学习梯度下降优化器，解决了在更大的问题上扩展能力不足和泛化能力受限问题，并在 ImageNet 数据集上通过数千步为 Inception V3 和 ResNet V2 架构进行了优化。

Mar, 2017

学习优化器的一般化方法

从泛化为先的角度设计了一种系统，使用新颖的特征、行动和奖励函数学习更新优化器超参数，从而优化神经网络的泛化性能。该系统在所有神经网络任务上优于 Adam，并在 ImageNet 上实现了 2 倍的加速，在使用比训练任务大 5 个数量级的计算资源的语言模型任务上实现了 2.5 倍的加速。

Jun, 2021

如何使用 SGD 微调视觉模型

比较了在视觉 Transformer 和 ConvNeXt 模型微调时，SGD 和 AdamW 两种最常用的优化器的表现，发现当微调梯度在第一个 embedding 层中远大于其余模型时，使用 AdamW 可以比 SGD 取得更好的表现，但是冻结这个层以后，SGD 的表现可以达到和 AdamW 相当甚至更优秀，也能节省更多的内存。这一结论在五种区分性偏移测试中都获得了最佳表现。

Nov, 2022

标准化方向保留 Adam

本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam)，通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距，并进一步改善了分类任务中的推广性能。

Sep, 2017

基于经验的优化器选择策略研究：面向非分布式环境下的广义泛化问题

研究不同类型的分布偏移下用于图像和文本分类的常用优化器的性能，发现自适应优化器表现较差，并且在分布偏移对分类准确性的影响方面呈现三种类别的行为，可以帮助实践者选择正确的优化器。

Nov, 2022

等向随机优化器

提出一种新的优化器 IsoAdam，通过使参数更新的范数对输入和输出的线性变换具有不变性来提高训练速度。

Jul, 2023

预见优化器：向前 k 步，向后 1 步

该论文提出了一种新的优化算法 Lookahead，针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进，能够提高学习的稳定性和性能表现。

Jul, 2019

旋转优化器：简单而稳健的深度神经网络训练

本文研究深度神经网络的训练动态，提出旋转变量优化器，通过移除传递相应收敛期可达到与原始变量优化器类似的性能，降低了对学习率热身的需求，并改善了对网络归一化不足的优化。

May, 2023

由 Adam 优化器转为 SGD 优化器提升泛化性能

提出一种混合方法 SWATS 进行训练，开头使用自适应方法 Adam，后期如果符合一定条件则切换至 SGD。实验证明，SWATS 能够缩短自适应方法和 SGD 之间的泛化差距，在多数任务上表现良好。

Dec, 2017

Adam-mini: 更少的学习率，取得更多的收益

Adam-mini 是一个优化器，通过减少内存占用量（相较于 AdamW 减少了 45％至 50％）来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用，使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证，我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能，同时还减少了通信开销，并提高了吞吐量。

Jun, 2024