跳跃层注意力：在 Transformer 中连接抽象和详细依赖关系

Jun, 2024

跳跃层注意力：在 Transformer 中连接抽象和详细依赖关系

Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers

Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Shiliang Zhang...

TL;DR该研究论文通过引入 Skip-Layer Attention (SLA) 方法在 Transformer 模型中实现直接关注非相邻层之间的依赖关系，提升模型捕捉高层抽象特征和底层细节之间的依赖，扩展了 Transformer 的功能，实现了更多样的多头注意力机制，从而在语言建模任务中取得了更优越的性能。

Abstract

The transformer architecture has significantly advanced deep learning, particularly in natural language processing, by effectively managing long-range dependencies. However, as the demand for understanding comple

transformer architecture skip-layer attention (sla)dependencies multi-head attention language modeling tasks

发现论文，激发创造

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023

关于 Transformer 模型的长程能力

通过对 Transformer 架构进行最小的修改，引入长距离任务的归纳偏差、位置性等重要特性以提升性能，并为成功捕捉长距离依赖关系确定了关键属性。

Nov, 2023

超越注意力可视化的 Transformer 可解释性

本研究提出了一种基于 Deep Taylor Decomposition 原则的计算 Transformer 网络相关性的方法，通过注意力层和跳跃连接进行传播，并通过基于图像分类和文本分类问题的测试表明其在解释性方面优于现有方法。

Dec, 2020

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

Transformer 模型中的关键要素：并非所有的注意力都是必要的

通过使用基于相似性的度量标准，本文研究了 Transformer 中不同模块（如 Blocks、MLP 和 Attention 层）之间的冗余性变化，发现一大部分 Attention 层可以被安全剪枝，从而降低内存和计算成本，并提出了一种同时舍弃 Attention 和 MLP 层的方法，进一步提升性能和降低比率。

Jun, 2024

通过点亮重要信息更好地解释 Transformers

提出了一种在层间相关传播 (LRP) 方法的基础上通过细化信息流来突出重要信息并消除无关信息，实验结果表明，与八个基准方法相比，在分类和问答数据集上我们的方法始终表现出超过 3% 到 33% 的解释指标的提升，提供了更好的解释性能。

Jan, 2024

仅关注注意力的 Transformer 模型及使用注意力头实现的 MLP

证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现，只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分（线性变换和激活函数），并且可以在其权重矩阵中编码任意的掩码模式，误差可以任意小。

Sep, 2023

单个注意力层可以学到什么？基于随机特征的研究

注意力层是 Transformer 架构的核心组成部分，本研究对单个多头注意力层的学习和泛化进行了严格的理论研究，探讨了随机特征设置下注意力层对目标函数的表达能力、学习复杂度以及采样分布的影响等方面，实验证明了理论结果并展示了样本大小与目标函数复杂度之间的相互作用。

Jul, 2023