Transformer 模型的概率解释
我们对传统的 Transformer 模型中的注意力机制进行了简单修改,通过对指数函数的缩放点积取对数来量化查询 - 键的相似性,将注意力表达为一系列对数求和的指数函数,该方法的优势在于其线性化性质,具有恒定大小的潜在空间,每个标记的顺序应用具有恒定的时间和空间复杂度。我们实现了该修改,验证其在实践中的有效性,并得出结论,即它是传统注意力的一个有前途的替代方法。
Apr, 2024
通过除以键值长度之和而非平方根,我们提出了一种替代方法来缩放点积,以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示,这种方法在许多情况下更有效。
Nov, 2023
通过引入新颖的几何视角,本文揭示了 Transformer 操作的内部机制,主要贡献在于说明层归一化将潜在特征限制在一个超球面上,从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究,我们的发现揭示了早期层中的清晰查询 - 键注意力模式,并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察,我们给出了 Transformer 的直观理解,将其描述为沿着超球面的词粒子的轨迹的建模过程。
Sep, 2023
本文讨论了使用梯度信息的 Transformer 解释性方法的效果不佳,识别输入特征对预测的贡献不可靠,提出了一种更稳定的方法,该方法可以被视为对 Transformer 的 LRP 方法的适当扩展,通过 Attention Heads 和 LayerNorm 层的更稳定传播, 在广泛的 Transformer 模型和数据集上实现了最先进的解释性能。
Feb, 2022
增加 Transformer 模型的大小并不总是导致性能提升,用经验缩放定律无法解释此现象。此外,模型记忆训练样本会改善泛化能力。我们提出了一个理论框架,揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为,使每个 Transformer 模块能够有效进行近似最近邻搜索。基于此,我们设计了一个能量函数,类似于现代连续 Hopfield 网络中的函数,对注意力机制提供了有见地的解释。利用最大化 - 最小化技术,我们构建了一个全局能量函数,捕捉了 Transformer 的层次结构。在特定条件下,我们证明了最小可达的交叉熵损失下界约为 1。通过对不同数据规模运行 GPT-2 实验证实了我们的理论结果,以及在一个包含 2M 令牌的数据集上训练 vanilla Transformers。
May, 2024
使用非平衡 Hopfield 网络的路径积分方法研究了变压器网络的动力学规律,发现了与混沌分叉相关的非平衡相变等非平凡的动力学现象,并讨论了这种分析方法改善对变压器模型内部运作理解的潜力。
Jun, 2024
我们提出了堆栈注意力:一种集成堆栈的注意力操作符,其灵感来源于堆栈与上下文无关语言(CFLs)的理论联系,以解决标准注意力无法识别某些句法结构的局限性。我们提出了两种变种:一种与确定性下推自动机(PDAs)相关,一种基于非确定性 PDAs,使得 transformers 能够识别任意 CFLs。我们证明,具有堆栈注意力的 transformers 在学习 CFLs 方面非常有效,能够在理论上具有最大的解析困难的 CFL 上取得强大的结果。我们还证明,堆栈注意力在受约束参数预算下在自然语言建模中更加有效,并包括机器翻译方面的结果。
Oct, 2023
通过对来自一个广义 Potts 模型的数据进行学习,我们证明了带一点修改的自注意力单层可以在无限采样的极限下精确地学习这个分布,这种修改后的自注意力具有与条件概率相同的功能形式。
Apr, 2023
基于组合哈夫代数,将注意力机制视为计算广义卷积变换的过程,残差流则作为单位脉冲,通过 Hopf 一致性不变性 实现注意力型 Transformer 模型的学习,而无需显式反向传播。
Feb, 2023