注意力不是唯一的解决方案：仅仅使用注意力机制会随着深度呈双倍指数级别的降低

Mar, 2021

注意力不是唯一的解决方案：仅仅使用注意力机制会随着深度呈双倍指数级别的降低

Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth

Yihe Dong, Jean-Baptiste Cordonnier, Andreas Loukas

TL;DR本研究提出了一种新的方法来理解自我注意网络：我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加，通过这种分解，我们证明了自我注意具有强烈的归纳偏差，具体表现为 “令牌均匀性”；实验证明，不同变体的标准转换器体系结构存在收敛现象。

Abstract

attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks<

attention-based architectures self-attention networks inductive bias token uniformity standard transformer architectures

发现论文，激发创造

关注掩码和层归一化在 Transformer 中的作用

通过分析自我注意力机制和层标准化对秩崩溃的影响，本文发现层标准化在自我注意力的秩崩溃中起到了关键作用，为自我注意力提供了更富表现力、多功能的非线性动力系统。

May, 2024

一层自注意力变压器使用低秩权重矩阵是通用逼近器吗？

通过澄清 softmax 函数与 Boltzmann 算子之间的联系，我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力，从而表明单层 Transformer 具有有限样本的记忆能力，并且由一个自注意力层和两个前馈神经网络组成的 Transformer 是紧致域上连续函数的通用逼近器。

Jul, 2023

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

抽象化摘要中的多头注意力理解

本文研究了适用于抽象总结的多头自注意机制的可解释性，介绍了三个度量衡来评估关注头的重要性，发现相对位置的头对总结表现至关重要，不建议弃掉，而强制稀疏性似乎不能显着提高可解释性。

Nov, 2019

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

无概率笼的标准化注意力

本文介绍了 softmax-attention 在几何上的局限性，并提出采用归一化代替 softmax 实现自我注意力，从而获得超参数和数据推断鲁棒性较强的通用结构。

May, 2020

MLP 可以成为优秀的 Transformer 学习器

通过对非必要的 attention layers 进行选择性去除，本文提出了一种简化视觉 transformer 并减少计算负载的新策略，通过熵的考虑，将不具信息量的 attention layers 整合到相应的 MLP 中，实现仅在某些 transformer blocks 中使用 MLP，实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制，并在不影响性能的情况下去除 40% 的 attention layer。

Apr, 2024

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

仅关注注意力的 Transformer 模型及使用注意力头实现的 MLP

证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现，只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分（线性变换和激活函数），并且可以在其权重矩阵中编码任意的掩码模式，误差可以任意小。

Sep, 2023