初始状态下的 Transformer 有效理论
通过开发统一的信号传播理论和提供控制转换模型中正向和反向信号时刻的公式,本研究致力于理解和缓解与高注意力分数相关的梯度消失 / 爆炸、秩坍缩和不稳定性。我们还提出了 DeepScaleLM,一种初始化和缩放方案,通过整个模型保持单位输出 / 梯度时刻,从而使得能够训练包含上百层的非常深的模型。在多个数据集和模型大小上,我们发现转换模型可以更深 - 我们的深度模型在语言建模、语音翻译和图像分类上优于浅层模型,在只编码器、只解码器和编码器 - 解码器变体以及 Pre-LN 和 Post-LN transformer 上均如此。这些改进也会提高下游问答任务的性能,以及图像分类的鲁棒性。
Mar, 2024
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
深度随机初始化的 transformer 中的前向信号传播和梯度反向传播进行了研究,得出了初始化超参数的简单必要和充分条件,以确保 transformer 的可训练性。
Mar, 2024
通过设计参数初始化、偏差矩阵和位置相关的重缩放的组合,实现信号在无量纲变压器中的可信传播,使得在 WikiText-103 和 C4 上,我们的方法能够使没有标准化的深度变压器以与标准变压器相同的速度训练,并使深度无量纲变压器在大约 5 倍的迭代次数后达到与标准变压器相同的性能。
Feb, 2023
本研究通过分析注意力层及其所在的变形器模型的表示能力,探讨这些模型相对于其他架构的优势和劣势,并重点关注了它们的内在复杂度参数,例如宽度、深度和嵌入维度。在正面方面,我们提出了一个稀疏平均任务,并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长,而变形器的复杂性仅随着输入规模的对数增长;此外,我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面,我们提出了一个三元组检测任务,其中注意力层的复杂性随输入规模线性增长;考虑到这种情况在实践中似乎很少出现,我们还提出了一些自然变种,可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值,以及稀疏平均作为原型注意任务的作用,甚至在三元组检测的分析中也有用处。
Jun, 2023
通过模仿预训练 Transformer 的权重,使用模拟初始化方案沿用这些权重,能在视觉任务中提高 Vanilla Transformers 的最终准确度,并使训练速度更快。
May, 2023
本文研究了 NLP 中 Transformers 的深度网络结构存在的一些问题,提出了使用 DS-Init 和 MAtt 方法来解决梯度消失和计算效率问题,实验证明这些方法可以有效提升机器翻译的 BLEU 值。
Aug, 2019
研究 transformers 中的注意机制对视觉和语言任务的扩展,并发展适应性方法来提高模型的可解释性和计算效率。具体地,研究注意范围、稀疏和结构化 dropout 等方法,以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。
May, 2020
该研究建立了关于编码器式浅层 Transformer 的全局收敛理论,从体系结构、初始化和在有限宽度范围内的缩放的角度进行了现实情景的探究。研究重点在于如何解决 Transformer 核心组成部分 softmax 的问题。研究表明,在实践中使用的 He/LeCun 初始化方式下,我们的浅层 Transformer 的全局收敛只需要二次超参数化,且给出了基于神经切络核的分析,有助于综合比较不同缩放方案和初始化的重要性的差异。我们相信我们的研究结果对于更好地理解现代 Transformer,特别是训练动态方面具有重要意义。
Nov, 2023