大规模 Transformer 训练不稳定性的小规模代理

Sep, 2023

大规模 Transformer 训练不稳定性的小规模代理

Small-scale proxies for large-scale Transformer training instabilities

Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi...

TL;DR在本文中，我们研究了训练稳定性和不稳定性在小规模下的再现和研究方法，重点关注了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源，并研究了学习率、优化器和模型干预对最终损失的敏感性的影响，以及通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。

Abstract

Teams that have trained large transformer-based models have reported training instabilities at large scale that did not appear when training with the same hyperparameters at smaller scales. Although the causes of such instabilities are of scientific interest, the amount of resources re

training instability transformer-based models learning rate attention layers model activation

发现论文，激发创造

理解 Transformer 训练的难点

分析了 Transformer 模型训练稳定性问题的核心，提出了一种新的模型初始化方法 Admin，实验证明 Admin 方法可以提高模型的稳定性、加速收敛并且提高准确性。

Apr, 2020

学习如何扩展预训练模型以进行高效 Transformer 训练

通过对预训练的 transformer 的参数学习，使用线性变换因子初始化更大的模型，实现更快的 transformer 训练，并且减少了高达 50% 的计算成本。

Mar, 2023

防止注意力熵崩塌以稳定 Transformer 训练

本文通过追踪每层 Transformer 中 attention head 的注意熵来检验其训练动态。作者提出了一个名为 entropy collapse 的现象，即低的注意熵伴随着高的训练不稳定性，提出了一种简单高效的解决方案 sigma Reparam 可以避免这种现象，并进一步证明了注意熵的下限。作者在图像分类、自监督学习、机器翻译、自动语音识别和语言建模任务中测试了 sigma Reparam，在各种 Transformer 结构中均能提供更稳定和鲁棒的训练，甚至不需要预热、重量衰减、层归一化或自适应优化器。

Mar, 2023

深度学习训练不稳定性的损失曲率视角

本论文探究了损失海森矩阵在多项分类任务中的演化，以了解损失曲率对训练动态的影响。结果表明，成功的模型和超参数选择能够使早期的优化轨迹避免或穿越高曲率区域并进入扁平区域，提高学习率稳定性，类似于各种训练不稳定性缓解策略最终解决神经网络优化的相同失效模式，即差的条件。

Oct, 2021

高效扩展：基于预训练和微调的 Transformer 技术洞见

本文提出了来自于预训练和微调 Transformer 的缩放见解，并展示了改进的缩放协议，使得重新设计的模型在 downstream fine-tuning 方面具有相似的质量，同时参数数量减少了 50％，训练速度比广泛采用的 T5-base 模型快了 40％。

Sep, 2021

Transformer 语言模型分阶段训练

本文提出了一种基于阶段训练和生长算子的语言模型训练方法，通过增加模型的深度和宽度以节省计算资源，并利用缩放定律和训练动态来优化训练阶段，实验结果显示与基于随机初始化的传统模型相比，该方法能够实现高达 22% 的计算资源节省。

Mar, 2022

传递的尺度定律

研究表明，使用预训练模型进行迁移学习可以在未标注数据上改善性能，通过研究参数、数据和计算等方面，得到了一系列可预测的缩放规律。

Feb, 2021

关于 BERT 微调的稳定性：误区、解释和强基准线

通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现，本文表明，Fine-tuning 不稳定是由于优化困难导致梯度消失，我们提出了一个简单但强大的基线方法，使 BERT-based 模型的 fine-tuning 显著更稳定。

Jun, 2020

Transformer 稳定了：一种端到端的信号传播理论用于语言模型

通过开发统一的信号传播理论和提供控制转换模型中正向和反向信号时刻的公式，本研究致力于理解和缓解与高注意力分数相关的梯度消失 / 爆炸、秩坍缩和不稳定性。我们还提出了 DeepScaleLM，一种初始化和缩放方案，通过整个模型保持单位输出 / 梯度时刻，从而使得能够训练包含上百层的非常深的模型。在多个数据集和模型大小上，我们发现转换模型可以更深 - 我们的深度模型在语言建模、语音翻译和图像分类上优于浅层模型，在只编码器、只解码器和编码器 - 解码器变体以及 Pre-LN 和 Post-LN transformer 上均如此。这些改进也会提高下游问答任务的性能，以及图像分类的鲁棒性。

Mar, 2024

Transformer 训练中参数范数增长的影响：梯度下降的归纳偏置

本篇论文通过研究 transformer 在训练过程中的参数增长情况，证明了网络逐渐逼近于饱和状态的离散网络模型，得出饱和性是梯度下降在自然语言处理中的一个新的归纳偏差并通过自注意力机制分析了 transformer 的不同注意力头的作用。

Oct, 2020