Ranger21:一种协同深度学习优化器
通过引入层次循环神经网络优化算法和基于元学习的小任务集,实现了一个新的学习梯度下降优化器,解决了在更大的问题上扩展能力不足和泛化能力受限问题,并在 ImageNet 数据集上通过数千步为 Inception V3 和 ResNet V2 架构进行了优化。
Mar, 2017
从泛化为先的角度设计了一种系统,使用新颖的特征、行动和奖励函数学习更新优化器超参数,从而优化神经网络的泛化性能。该系统在所有神经网络任务上优于 Adam,并在 ImageNet 上实现了 2 倍的加速,在使用比训练任务大 5 个数量级的计算资源的语言模型任务上实现了 2.5 倍的加速。
Jun, 2021
比较了在视觉 Transformer 和 ConvNeXt 模型微调时,SGD 和 AdamW 两种最常用的优化器的表现,发现当微调梯度在第一个 embedding 层中远大于其余模型时,使用 AdamW 可以比 SGD 取得更好的表现,但是冻结这个层以后,SGD 的表现可以达到和 AdamW 相当甚至更优秀,也能节省更多的内存。这一结论在五种区分性偏移测试中都获得了最佳表现。
Nov, 2022
本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam),通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距,并进一步改善了分类任务中的推广性能。
Sep, 2017
研究不同类型的分布偏移下用于图像和文本分类的常用优化器的性能,发现自适应优化器表现较差,并且在分布偏移对分类准确性的影响方面呈现三种类别的行为,可以帮助实践者选择正确的优化器。
Nov, 2022
该论文提出了一种新的优化算法 Lookahead,针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进,能够提高学习的稳定性和性能表现。
Jul, 2019
本文研究深度神经网络的训练动态,提出旋转变量优化器,通过移除传递相应收敛期可达到与原始变量优化器类似的性能,降低了对学习率热身的需求,并改善了对网络归一化不足的优化。
May, 2023
提出一种混合方法 SWATS 进行训练,开头使用自适应方法 Adam,后期如果符合一定条件则切换至 SGD。实验证明,SWATS 能够缩短自适应方法和 SGD 之间的泛化差距,在多数任务上表现良好。
Dec, 2017
Adam-mini 是一个优化器,通过减少内存占用量(相较于 AdamW 减少了 45%至 50%)来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用,使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证,我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能,同时还减少了通信开销,并提高了吞吐量。
Jun, 2024