基于RoPE的变压器架构的电路复杂性界限
本文介绍了两种技术以提高Transformer的效率:使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层,减少存储激活的次数。改进后的模型Reformer在处理长序列时比Transformer更加高效。
Jan, 2020
本篇论文研究了在语言模型中如何整合位置信息,并提出了一种名为RoPE的方法,它可以将位置信息编码为旋转矩阵,并同时将显式的相对位置依赖性结合到自注意力公式中。实验结果表明,RoPE使transformer在处理长文本分类问题时表现出优越的性能。
Apr, 2021
通过在变压器架构中引入地理标记信息(geotokens),本文基于RoPE架构提出了一种适用于球坐标系的位置编码机制,以达到在嵌入空间中保持地理位置与物理距离之间比例关系的目的。
Oct, 2023
研究表明,通过允许transformer在回答问题之前生成和依赖于中间令牌的序列,可以提高其推理能力,增加中间生成的数量将显著扩展transformer解码器的计算能力,进而使其能够识别所有正则语言,保持上下文敏感语言,并解决多项式时间可解问题。
Oct, 2023
该研究提供了一种不依赖输入序列长度的基于规范化的Transformer架构的广义化界限,并使用基于覆盖数的方法证明了该界限。我们使用三种新颖的覆盖数界限来上界Transformer的Rademacher复杂性,并展示了这种广义化界限适用于常见的Transformer训练技术:屏蔽并预测屏蔽词。此外,我们还在一个稀疏多数数据集上进行了模拟研究,从实证上验证了我们的理论发现。
Oct, 2023
增加 Transformer 模型的大小并不总是导致性能提升,用经验缩放定律无法解释此现象。此外,模型记忆训练样本会改善泛化能力。我们提出了一个理论框架,揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为,使每个 Transformer 模块能够有效进行近似最近邻搜索。基于此,我们设计了一个能量函数,类似于现代连续 Hopfield 网络中的函数,对注意力机制提供了有见地的解释。利用最大化-最小化技术,我们构建了一个全局能量函数,捕捉了 Transformer 的层次结构。在特定条件下,我们证明了最小可达的交叉熵损失下界约为1。通过对不同数据规模运行 GPT-2 实验证实了我们的理论结果,以及在一个包含2M令牌的数据集上训练 vanilla Transformers。
May, 2024
本文解决了热门变换器架构自注意力机制中存在的二次计算复杂度问题,提出了一种新的快速梯度计算方法,能够在几乎线性时间内计算多层变换器模型的梯度。研究结果表明,该方法显著降低了传统计算瓶颈,有助于改进大型语言模型的训练和部署效率。
Aug, 2024
本研究解决了循环变压器在函数近似中的表达能力不足问题。通过定义序列到序列函数的连续性模,我们揭示了该循环架构的局限性,并提出在时间步编码下为每个循环引入缩放参数的方法。实验结果表明,增加循环次数可以提升性能,时间步编码架构则进一步增强了效果。
Oct, 2024
本文解决了线性函数类的覆盖数界限问题,提出了针对不同输入和矩阵范数约束的界限。通过引入低秩矩阵,研究显示单层变换器的泛化误差界限显著改善,为相关领域提供了新的思路和更优的理论支持。
Oct, 2024
本研究解决了变压器在长度泛化方面的不足,特别是在多操作数加法和乘法任务中。通过设计特定任务的临时缓存和多层位置耦合的方法,我们首次在算术变压器上实现了约2-3倍的长度泛化。该工作可能在推进算术理解模型能力方面产生重要影响。
Oct, 2024