ICLRFeb, 2022

无参数落下:基于敏感度导向的自适应学习速率训练大型 Transformer 模型

TL;DR通过提出一种新的训练策略,根据每个参数的敏感度自适应调整学习率,以减少冗余并改善泛化性能。该训练方法在自然语言理解、神经机器翻译和图像分类方面取得了显著的有效性。