自注意力矩阵的表达能力

Jun, 2021

On the Expressive Power of Self-Attention Matrices

Valerii Likhosherstov, Krzysztof Choromanski, Adrian Weller

TL;DR本文研究了 Transformer 网络中的自注意力矩阵，重点分析了稀疏模式的逼近。我们证明了通过固定自注意力参数，采用不同的输入即可逼近各种稀疏矩阵，并提出了一种基于随机映射技术的构造性证明和算法。尤其是，在保持矩阵元素比率不变的精度下，仅需要 $log L$（L 为序列长度）的 $ d $ 即可逼近任何稀疏矩阵。

Abstract

transformer networks are able to capture patterns in data coming from many domains (text, images, videos, proteins, etc.) with little or no change to architecture components. We perform a theoretical analysis of the core component responsible for signal propagation between elements, i.

transformer networks self-attention matrix sparse matrices random projection technique approximation

发现论文，激发创造

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

$O (n)$ 连接已足够表达力：稀疏 Transformer 的通用逼近性

本研究提出一种稀释注意力机制，以解决 Transformer 网络在输入序列长度较长时的计算成本过高的问题，并证明其能够普遍逼近任何序列到序列的函数，而且具有比稠密模型更低的复杂度，最后通过实验结果验证该机制的有效性在自然语言处理任务中。

Jun, 2020

一层自注意力变压器使用低秩权重矩阵是通用逼近器吗？

通过澄清 softmax 函数与 Boltzmann 算子之间的联系，我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力，从而表明单层 Transformer 具有有限样本的记忆能力，并且由一个自注意力层和两个前馈神经网络组成的 Transformer 是紧致域上连续函数的通用逼近器。

Jul, 2023

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

自注意机制中的感性偏见和变量创建

本文通过对自我注意模块归纳偏差的理论分析，发现有界 Transformer 网络能够创建稀疏变量，从而用单个注意力头表示输入序列的稀疏函数，样本复杂度仅以对数尺度增长；通过合成实验来支持我们的分析，探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。

Oct, 2021

自注意力动态中群集的出现

本文将 Transformer 视为相互作用的粒子系统，描述了当权重不随时间变化时，学习表示的几何特征，证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象，这取决于值矩阵的谱。同时，在一维情况下，证明了自我关注矩阵收敛于低秩布尔矩阵。这些结果的组合在数学上证实了 Vaswani 等人的经验观察，即在 Transformers 处理一系列标记时会出现 “leader”。

May, 2023

SparseBERT: 自注意力中重要性分析的反思

通过研究注意力矩阵中不同位置的重要性，我们提出了可重构性较强的 Transformer 模型 SparseBERT，并给出了 Differentiable Attention Mask 算法以进一步指导模型的设计。我们证明了对角线元素可以被移除，而不影响模型的性能。通过广泛实验，证实了我们的有趣发现和算法的有效性。

Feb, 2021

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019

多分辨率分析 (MRA) 用于近似自注意力

利用 Multiresolution Analysis 中的 Wavelets 概念构建一种高效的自我关注模型，同时在短序列和长序列的 NLP 任务上均表现优异。

Jul, 2022

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023