Sep, 2023

大规模 Transformer 训练不稳定性的小规模代理

TL;DR在本文中,我们研究了训练稳定性和不稳定性在小规模下的再现和研究方法,重点关注了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源,并研究了学习率、优化器和模型干预对最终损失的敏感性的影响,以及通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。