Transformer 训练中参数范数增长的影响：梯度下降的归纳偏置

EMNLPOct, 2020

Transformer 训练中参数范数增长的影响：梯度下降的归纳偏置

Effects of Parameter Norm Growth During Transformer Training: Inductive Bias from Gradient Descent

William Merrill, Vivek Ramanujan, Yoav Goldberg, Roy Schwartz, Noah Smith

TL;DR本篇论文通过研究 transformer 在训练过程中的参数增长情况，证明了网络逐渐逼近于饱和状态的离散网络模型，得出饱和性是梯度下降在自然语言处理中的一个新的归纳偏差并通过自注意力机制分析了 transformer 的不同注意力头的作用。

Abstract

The capacity of neural networks like the widely adopted transformer is known to be very high. Evidence is emerging that they learn successfully due to →

neural networks transformer inductive bias self attention nlp

发现论文，激发创造

学习如何扩展预训练模型以进行高效 Transformer 训练

通过对预训练的 transformer 的参数学习，使用线性变换因子初始化更大的模型，实现更快的 transformer 训练，并且减少了高达 50% 的计算成本。

Mar, 2023

探索变形金刚的归纳偏差：从无限的视角

在无限过参数化的高斯过程极限中，我们研究了 Transformer 中的归纳偏置，并认为 Transformer 更倾向于对序列空间中的更多置换对称函数有偏见。通过展示对称群的表示理论的运用，我们可以在数据集对令牌之间的置换对称时给出定量分析预测。我们介绍了一个简化的 Transformer 模块，并解决了模型的极限，包括对学习曲线和网络输出的准确预测。我们证明在常见的设置中，可以导出关于上下文长度可学习性的一个紧密的边界的缩放定律。最后，我们认为 WikiText 数据集确实具有一定的置换对称度。

Feb, 2024

不含泪的 Transformer: 改进自注意力的规范化

通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用，能够加速模型训练，使其更加稳定，从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。

Oct, 2019

自注意力的隐性偏见和快速收敛速率

通过对自注意力机制进行梯度下降的隐式偏差研究，我们在二进制分类中的固定线性解码器上训练自注意力层，证明了全局收敛并量化了关注图的稀疏化速率，同时分析了自适应步长规则对自注意力收敛速度的加速效果，从而进一步加强了自注意力的隐式偏差视角并强化了其与线性逻辑回归中的隐式偏差的联系。

Feb, 2024

渐进式 BERT 训练中的 Transformer 增长

本文旨在通过对 Transformer 增长的探索来指导渐进式训练，发现复合缩放方法可以平衡模型的深度、宽度和输入的长度，并通过比较实验探索每个维度的替代增长操作，最终使 BERT 的预训练加快 73.6％（基本模型）和 82.2％（大模型），并达到相当的性能。

Oct, 2020

超越缩放定律：理解具有关联记忆的 Transformer 性能

增加 Transformer 模型的大小并不总是导致性能提升，用经验缩放定律无法解释此现象。此外，模型记忆训练样本会改善泛化能力。我们提出了一个理论框架，揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为，使每个 Transformer 模块能够有效进行近似最近邻搜索。基于此，我们设计了一个能量函数，类似于现代连续 Hopfield 网络中的函数，对注意力机制提供了有见地的解释。利用最大化 - 最小化技术，我们构建了一个全局能量函数，捕捉了 Transformer 的层次结构。在特定条件下，我们证明了最小可达的交叉熵损失下界约为 1。通过对不同数据规模运行 GPT-2 实验证实了我们的理论结果，以及在一个包含 2M 令牌的数据集上训练 vanilla Transformers。

May, 2024

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020

大规模 Transformer 训练不稳定性的小规模代理

在本文中，我们研究了训练稳定性和不稳定性在小规模下的再现和研究方法，重点关注了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源，并研究了学习率、优化器和模型干预对最终损失的敏感性的影响，以及通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。

Sep, 2023

关于激活和标准化对于初始情况下获得等距嵌入的影响

该论文探讨了深度神经网络中的 Gram 矩阵结构，在多层感知器中给出了层归一化与激活层一起导致 Gram 矩阵趋向等距的证明，进一步阐明了高阶 Hermite 系数在此方面的重要性。

May, 2023

初始状态下的 Transformer 有效理论

本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析，提出了相应的模型初始化和训练超参数的宽度缩放建议，最终在实际场景中训练了视觉和语言的 Transformer 模型

Apr, 2023