当为自然语言处理任务微调预训练 Transformer 模型时，是否应该尝试多个优化器？是否需要调整其超参数？

ACLFeb, 2024

当为自然语言处理任务微调预训练 Transformer 模型时，是否应该尝试多个优化器？是否需要调整其超参数？

Should I try multiple optimizers when fine-tuning pre-trained Transformers for NLP tasks? Should I tune their hyperparameters?

PDF

Nefeli Gkouti, Prodromos Malakasiotis, Stavros Toumpis, Ion Androutsopoulos

TL;DR通过实验发现，当优化器的超参数调整后，复杂的自适应优化器在测试性能上并没有实质性的差异，而仅调整学习率在大多数情况下就能达到与调整所有超参数相当的效果，因此建议选择最佳性能的任何自适应优化器，并仅调整其学习率。当无法调整超参数时，SGD with Momentum 是最佳选择。

Abstract

nlp research has explored different neural model architectures and sizes, datasets, training objectives, and transfer learning techniques. However, the choice of optimizer during training has not been explored as

nlp research neural model architectures optimizers hyperparameters test performance

发现论文，激发创造

深度学习优化器的实证比较

本文证明了优化器比较对超参数调整协议的敏感性，提出探究搜索空间是解释当前文献中最新动态排名的最重要因素之一，并展示实验结果证明了目前广泛使用的自适应梯度方法永远不会劣于动量或梯度下降。

Oct, 2019

如何使用 SGD 微调视觉模型

比较了在视觉 Transformer 和 ConvNeXt 模型微调时，SGD 和 AdamW 两种最常用的优化器的表现，发现当微调梯度在第一个 embedding 层中远大于其余模型时，使用 AdamW 可以比 SGD 取得更好的表现，但是冻结这个层以后，SGD 的表现可以达到和 AdamW 相当甚至更优秀，也能节省更多的内存。这一结论在五种区分性偏移测试中都获得了最佳表现。

Nov, 2022

YellowFin 与动量调整艺术

YellowFin 是一种基于 SGD 优化的自动调参方法，通过手动调整学习率和动量，可以达到和 Adam 优化器相当的效果，同时在异步训练环境下，引入负反馈回路可以进一步提高收敛速度。

Jun, 2017

深度学习优化器基准测试 - 穿越拥挤的山谷

本文通过对 15 种深度学习优化器的广泛基准测试，得出以下结论：(i) 优化器的性能因任务而异。(ii) 使用默认参数评估多个优化器大致与调整单个优化器的超参数一样好。(iii) Adam 仍然是一个强有力的竞争者，其它新的方法未能显著并持续地超越它。

Jul, 2020

优化器基准测试需考虑超参数调整

本文的研究结果表明，Adam 优化器是一种实用的解决方案，尤其在低预算场景中，因为评估不同优化器的性能必须考虑到超参数搜索的计算成本和难度。

Oct, 2019

基于梯度的简单有效序列到序列模型调优

本研究首次将梯度基础的超参数优化方法应用于序列到序列任务中，为神经机器翻译和自然语言理解任务（通过 T5 预训练）提供了效率和性能增益。通过超参数优化得到的一些超参数学习时间表可以超过甚至优于最优常值调整。同时，本文还展示了在预训练期间学习超参数可以提高在下游自然语言理解任务中的性能表现。

Sep, 2022

基于经验的优化器选择策略研究：面向非分布式环境下的广义泛化问题

研究不同类型的分布偏移下用于图像和文本分类的常用优化器的性能，发现自适应优化器表现较差，并且在分布偏移对分类准确性的影响方面呈现三种类别的行为，可以帮助实践者选择正确的优化器。

Nov, 2022

基于 Transformer 的语言模型的自适应微调用于命名实体识别

本次研究提出了自适应微调的替代方案，使用早期停止和自定义学习速率表来动态调整训练轮数，特别针对小型数据集，我们在命名实体识别的示例用例中表现出比现有的微调算法更好的性能、稳定性和效率。

Feb, 2022

可扩展且泛化的学习优化器

通过引入层次循环神经网络优化算法和基于元学习的小任务集，实现了一个新的学习梯度下降优化器，解决了在更大的问题上扩展能力不足和泛化能力受限问题，并在 ImageNet 数据集上通过数千步为 Inception V3 和 ResNet V2 架构进行了优化。

Mar, 2017

超参数对神经网络 SGD 训练的影响

大规模实验探索神经网络分类器的超参数及其交互作用。

Aug, 2015