ICMLJun, 2024

梯度正则化何时会有害?

TL;DR本文揭示了梯度正则化(GR)在自适应优化场景中可能导致性能下降的问题,并提出了三种 GR 热身策略来解决这些问题,实验证实这三种策略能够大幅提高模型性能。