在本文中,我们研究了训练稳定性和不稳定性在小规模下的再现和研究方法,重点关注了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源,并研究了学习率、优化器和模型干预对最终损失的敏感性的影响,以及通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。
Sep, 2023
通过对线性化浅层 transformer 模型的研究,我们对 transformer 训练的复杂性有了更深入的了解,并观察到线性化模型能够重现 transformer 训练动态的几个重要方面,因此,本文的结果表明简单的线性化 transformer 模型实际上能够是理解 transformer 优化的有价值的现实抽象。
Oct, 2023
本文探讨了三种算法类型 (动态架构、批量选择和优化器) 在训练 Transformer-based 语言模型的效率问题,并发现这些算法并不能比传统训练方法更快的提升训练、验证和下游任务的表现。
Jul, 2023
本文旨在通过对 Transformer 增长的探索来指导渐进式训练,发现复合缩放方法可以平衡模型的深度、宽度和输入的长度,并通过比较实验探索每个维度的替代增长操作,最终使 BERT 的预训练加快 73.6%(基本模型)和 82.2%(大模型),并达到相当的性能。
Oct, 2020
SGD 在 Transformers 上表现明显不如 Adam,我们通过 Hessian 镜头提供了 SGD 在 Transformers 上失败的解释:(1) Transformers 是 “异质” 的:参数块之间的 Hessian 频谱差异巨大,我们称之为 “块异质性” 现象;(2) 异质性妨碍了 SGD 的表现:SGD 在具有块异质性的问题上表现不好。通过验证,在不存在块异质性的问题上,我们发现 SGD 表现良好,但在存在异质性的问题上表现不佳。我们的初步理论分析表明,SGD 失败是因为它对所有块应用了相同的学习率,无法处理块之间的异质性。如果我们能够针对不同的块分配不同的学习率,就能挽救 SGD 的失败,就像 Adam 中设计的那样。
Feb, 2024
通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现,本文表明,Fine-tuning 不稳定是由于优化困难导致梯度消失,我们提出了一个简单但强大的基线方法,使 BERT-based 模型的 fine-tuning 显著更稳定。
Jun, 2020
本文探讨了神经网络对分布偏移的敏感性问题解决方案中的对抗训练,以及了解到神经网络与人类理解不同的处理方式,更进一步地研究对抗训练对于神经网络偏向形状的影响并给出可能的解释,从频率角度分析了其效果。
Mar, 2023
本文提出了一种基于阶段训练和生长算子的语言模型训练方法,通过增加模型的深度和宽度以节省计算资源,并利用缩放定律和训练动态来优化训练阶段,实验结果显示与基于随机初始化的传统模型相比,该方法能够实现高达 22% 的计算资源节省。
Mar, 2022
在变压器架构下,输入空间敏感性限制了损失函数的变化趋势,使得变压器在一般化方面表现出低敏感性和低程度的偏好,并且在计算简单形式语言(如 PARITY)和长度一般化方面存在困难。
线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。