如何使用 SGD 微调视觉模型

Nov, 2022

How to Fine-Tune Vision Models with SGD

Ananya Kumar, Ruoqi Shen, Sébastien Bubeck, Suriya Gunasekar

TL;DR比较了在视觉 Transformer 和 ConvNeXt 模型微调时，SGD 和 AdamW 两种最常用的优化器的表现，发现当微调梯度在第一个 embedding 层中远大于其余模型时，使用 AdamW 可以比 SGD 取得更好的表现，但是冻结这个层以后，SGD 的表现可以达到和 AdamW 相当甚至更优秀，也能节省更多的内存。这一结论在五种区分性偏移测试中都获得了最佳表现。

Abstract

SGD (with momentum) and adamw are the two most used optimizers for fine-tuning large neural networks in computer vision. When the two meth

optimizer fine-tuning neural networks adamw memory

发现论文，激发创造

由 Adam 优化器转为 SGD 优化器提升泛化性能

提出一种混合方法 SWATS 进行训练，开头使用自适应方法 Adam，后期如果符合一定条件则切换至 SGD。实验证明，SWATS 能够缩短自适应方法和 SGD 之间的泛化差距，在多数任务上表现良好。

Dec, 2017

探寻变形金刚为何 Adam 比 SGD 更快收敛

这篇论文提出了一种新的方向锐度概念，阐述了优化算法与更新步长的方向锐度的关系，发现随机梯度下降在这方面表现远差于自适应算法，因此建议使用坐标剪裁该问题，并证明了该技术可用于提高深度学习优化的收敛速度。

May, 2023

当为自然语言处理任务微调预训练 Transformer 模型时，是否应该尝试多个优化器？是否需要调整其超参数？

通过实验发现，当优化器的超参数调整后，复杂的自适应优化器在测试性能上并没有实质性的差异，而仅调整学习率在大多数情况下就能达到与调整所有超参数相当的效果，因此建议选择最佳性能的任何自适应优化器，并仅调整其学习率。当无法调整超参数时，SGD with Momentum 是最佳选择。

Feb, 2024

自适应方法的领域无关主导性

通过对自适应方法的简要分析，我们提出了 AvaGrad - 一种优化器，当其适应性调整得当时，其性能优于视觉任务中的 SGD。我们观察到我们方法的效果部分是由学习率和适应性的解耦实现，从而简化了超参数搜索。实践证明 AvaGrad 匹配了现有任何优化器（SGD 或自适应）在图像分类（CIFAR，ImageNet）和字符级语言建模（Penn Treebank）任务中提供的最佳结果。

Dec, 2019

预见优化器：向前 k 步，向后 1 步

该论文提出了一种新的优化算法 Lookahead，针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进，能够提高学习的稳定性和性能表现。

Jul, 2019

标准化方向保留 Adam

本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam)，通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距，并进一步改善了分类任务中的推广性能。

Sep, 2017

YellowFin 与动量调整艺术

YellowFin 是一种基于 SGD 优化的自动调参方法，通过手动调整学习率和动量，可以达到和 Adam 优化器相当的效果，同时在异步训练环境下，引入负反馈回路可以进一步提高收敛速度。

Jun, 2017

旋转优化器：简单而稳健的深度神经网络训练

本文研究深度神经网络的训练动态，提出旋转变量优化器，通过移除传递相应收敛期可达到与原始变量优化器类似的性能，降低了对学习率热身的需求，并改善了对网络归一化不足的优化。

May, 2023

Adam 与训练策略如何帮助 BNNs 优化？

研究二进制神经网络使用 Adam 优化相对于 SGD 优化的优势，发现 Adam 通过其自适应学习率策略更好地处理 BNN 的崎岖损失表面，并得到更好的优化结果。通过分析发现，Adam 的二阶动量正则化效应对于使 BNN 中由于激活饱和而死亡的权重重振是至关重要的，并探究了实值权重在二进制网络中的有趣作用以及权重衰减对 BNN 优化的影响。最终，我们提出了一个基于 Adam 优化的简单训练方案，使用相同的架构比最先进的 ReActNet 实现了 1.1％更高的 top-1 准确度（70.5％）。

Jun, 2021

AdaBelief 优化器：通过观察梯度的信念来调整步长

提出了一种名为 AdaBelief 的优化器，通过根据当前梯度方向的 “信任度” 调整步长，同时达到了收敛速度快、泛化性能好和训练稳定的三个目标，并在图像分类和语言建模等领域的实验中证明了其优越性。

Oct, 2020