关注掩码和层归一化在 Transformer 中的作用
本研究提出了一种新的方法来理解自我注意网络:我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加,通过这种分解,我们证明了自我注意具有强烈的归纳偏差,具体表现为 “令牌均匀性”;实验证明,不同变体的标准转换器体系结构存在收敛现象。
Mar, 2021
本文表明,LayerNorm 是 Transformer 模型中 multi-head attention 层表现力的重要组成部分,其投影和缩放两个步骤对于注意力机制的作用至关重要。
May, 2023
探究在 Transformer 的自我注意层中可能发生的排名坍塌现象及其影响,发现其会导致查询和键的梯度消失,导致训练受阻,但可以通过适当的深度相关的残差分支缩放来预防,而特定的架构超参数会导致查询和值的梯度的不均衡,这解释了为什么在 Transformers 的优化中广泛使用自适应方法。
Jun, 2022
自注意力机制是 transformers 在序列建模任务中取得卓越成功的关键,本研究提出了一种基于支持向量回归问题的自注意力构建方法,推导出常用的注意力层,并提出了两种新型注意力机制:1) 批正则注意力,2) 缩放头注意力,通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。
Jun, 2024
通过澄清 softmax 函数与 Boltzmann 算子之间的联系,我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力,从而表明单层 Transformer 具有有限样本的记忆能力,并且由一个自注意力层和两个前馈神经网络组成的 Transformer 是紧致域上连续函数的通用逼近器。
Jul, 2023
通过研究注意力矩阵中不同位置的重要性,我们提出了可重构性较强的 Transformer 模型 SparseBERT,并给出了 Differentiable Attention Mask 算法以进一步指导模型的设计。我们证明了对角线元素可以被移除,而不影响模型的性能。通过广泛实验,证实了我们的有趣发现和算法的有效性。
Feb, 2021
通过全面分析 Transformer 架构(多头注意力、残差连接和层归一化)来研究其性能表现,发现中间表示的交互通过注意力执行的作用比先前假定的要小,并提供了新的直观解释。
Sep, 2021
本文提出了一种新的自注意力机制 ——Linformer,该机制通过近似自注意力矩阵,将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n),从而显著提高了 Transformer 模型的内存和时间效率。
Jun, 2020
通过分析自注意力机制的注意力矩阵分布和其专注能力,并引入一种新的自注意力机制(线性对数正态注意力),我们试图研究其与原始自注意力的分布和专注行为的模拟度量,实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案,为提高 Transformer 模型的可扩展性提供了有前景的途径。
Nov, 2023