Mar, 2024

Transformer稳定了:一种端到端的信号传播理论用于语言模型

TL;DR通过开发统一的信号传播理论和提供控制转换模型中正向和反向信号时刻的公式,本研究致力于理解和缓解与高注意力分数相关的梯度消失/爆炸、秩坍缩和不稳定性。我们还提出了DeepScaleLM,一种初始化和缩放方案,通过整个模型保持单位输出/梯度时刻,从而使得能够训练包含上百层的非常深的模型。在多个数据集和模型大小上,我们发现转换模型可以更深 - 我们的深度模型在语言建模、语音翻译和图像分类上优于浅层模型,在只编码器、只解码器和编码器-解码器变体以及Pre-LN和Post-LN transformer上均如此。这些改进也会提高下游问答任务的性能,以及图像分类的鲁棒性。