Transformer 训练中参数范数增长的影响:梯度下降的归纳偏置
通过对预训练的 transformer 的参数学习,使用线性变换因子初始化更大的模型,实现更快的 transformer 训练,并且减少了高达 50% 的计算成本。
Mar, 2023
在无限过参数化的高斯过程极限中,我们研究了 Transformer 中的归纳偏置,并认为 Transformer 更倾向于对序列空间中的更多置换对称函数有偏见。通过展示对称群的表示理论的运用,我们可以在数据集对令牌之间的置换对称时给出定量分析预测。我们介绍了一个简化的 Transformer 模块,并解决了模型的极限,包括对学习曲线和网络输出的准确预测。我们证明在常见的设置中,可以导出关于上下文长度可学习性的一个紧密的边界的缩放定律。最后,我们认为 WikiText 数据集确实具有一定的置换对称度。
Feb, 2024
通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用,能够加速模型训练,使其更加稳定,从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。
Oct, 2019
通过对自注意力机制进行梯度下降的隐式偏差研究,我们在二进制分类中的固定线性解码器上训练自注意力层,证明了全局收敛并量化了关注图的稀疏化速率,同时分析了自适应步长规则对自注意力收敛速度的加速效果,从而进一步加强了自注意力的隐式偏差视角并强化了其与线性逻辑回归中的隐式偏差的联系。
Feb, 2024
本文旨在通过对 Transformer 增长的探索来指导渐进式训练,发现复合缩放方法可以平衡模型的深度、宽度和输入的长度,并通过比较实验探索每个维度的替代增长操作,最终使 BERT 的预训练加快 73.6%(基本模型)和 82.2%(大模型),并达到相当的性能。
Oct, 2020
增加 Transformer 模型的大小并不总是导致性能提升,用经验缩放定律无法解释此现象。此外,模型记忆训练样本会改善泛化能力。我们提出了一个理论框架,揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为,使每个 Transformer 模块能够有效进行近似最近邻搜索。基于此,我们设计了一个能量函数,类似于现代连续 Hopfield 网络中的函数,对注意力机制提供了有见地的解释。利用最大化 - 最小化技术,我们构建了一个全局能量函数,捕捉了 Transformer 的层次结构。在特定条件下,我们证明了最小可达的交叉熵损失下界约为 1。通过对不同数据规模运行 GPT-2 实验证实了我们的理论结果,以及在一个包含 2M 令牌的数据集上训练 vanilla Transformers。
May, 2024
研究了线性神经网络训练中渐进流(即用无穷小步长的梯度下降法)的隐含偏差;提出了神经网络的张量形式,包括全连接、对角线和卷积网络等特例,并研究了称为线性张量网络的公式的线性版本。通过这个公式,我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。
Oct, 2020
在本文中,我们研究了训练稳定性和不稳定性在小规模下的再现和研究方法,重点关注了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源,并研究了学习率、优化器和模型干预对最终损失的敏感性的影响,以及通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。
Sep, 2023
该论文探讨了深度神经网络中的 Gram 矩阵结构,在多层感知器中给出了层归一化与激活层一起导致 Gram 矩阵趋向等距的证明,进一步阐明了高阶 Hermite 系数在此方面的重要性。
May, 2023
本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析,提出了相应的模型初始化和训练超参数的宽度缩放建议,最终在实际场景中训练了视觉和语言的 Transformer 模型
Apr, 2023