ACLFeb, 2024

当为自然语言处理任务微调预训练 Transformer 模型时,是否应该尝试多个优化器?是否需要调整其超参数?

TL;DR通过实验发现,当优化器的超参数调整后,复杂的自适应优化器在测试性能上并没有实质性的差异,而仅调整学习率在大多数情况下就能达到与调整所有超参数相当的效果,因此建议选择最佳性能的任何自适应优化器,并仅调整其学习率。当无法调整超参数时,SGD with Momentum 是最佳选择。