Nov, 2022

如何使用 SGD 微调视觉模型

TL;DR比较了在视觉 Transformer 和 ConvNeXt 模型微调时,SGD 和 AdamW 两种最常用的优化器的表现,发现当微调梯度在第一个 embedding 层中远大于其余模型时,使用 AdamW 可以比 SGD 取得更好的表现,但是冻结这个层以后,SGD 的表现可以达到和 AdamW 相当甚至更优秀,也能节省更多的内存。这一结论在五种区分性偏移测试中都获得了最佳表现。