Transformer 的表征能力与局限性

Jun, 2023

Representational Strengths and Limitations of Transformers

Clayton Sanford, Daniel Hsu, Matus Telgarsky

TL;DR本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Abstract

attention layers, as commonly used in transformers, form the backbone of modern deep learning, yet there is no mathematical description of their benefits and deficiencies as compared with other architectures. In

attention layers transformers complexity sparse averaging task embedding dimension

发现论文，激发创造

学习多模态表示的自适应 Transformer

研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

May, 2020

Transformer 模型中的关键要素：并非所有的注意力都是必要的

通过使用基于相似性的度量标准，本文研究了 Transformer 中不同模块（如 Blocks、MLP 和 Attention 层）之间的冗余性变化，发现一大部分 Attention 层可以被安全剪枝，从而降低内存和计算成本，并提出了一种同时舍弃 Attention 和 MLP 层的方法，进一步提升性能和降低比率。

Jun, 2024

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

超网络中的注意力

使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力，在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。

Jun, 2024

Transformer 模型中的注意力的多尺度可视化

通过使用注意力机制，Transformer 模型不仅在性能上有所提升，同时还可通过可视化工具展示模型如何赋权于不同的输入元素，从而实现模型的解释和解读，本文提出了一种开源的基于多尺度可视化注意力机制的工具，并在 BERT 和 OpenAI GPT-2 上进行了演示，包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。

Jun, 2019

自注意力层

通过对 transformer 中不同标记和 graph neural network 中不同节点在深层的相似性进行分析，我们提出了一个简单的修正项，它可以有效地消除过度平滑问题，在弱监督分割任务上表现优于通常基准方法，并且在非常深的图神经网络架构训练上显著提高了训练效果。

Jun, 2023

单个注意力层可以学到什么？基于随机特征的研究

注意力层是 Transformer 架构的核心组成部分，本研究对单个多头注意力层的学习和泛化进行了严格的理论研究，探讨了随机特征设置下注意力层对目标函数的表达能力、学习复杂度以及采样分布的影响等方面，实验证明了理论结果并展示了样本大小与目标函数复杂度之间的相互作用。

Jul, 2023

多头注意力模型中的低秩瓶颈

本文提出了一种多头注意力机制的改进方法，将注意头的大小设置为输入序列长度，从而使注意机制的表达能力更强，能够在较小的嵌入维度下训练模型，并提高模型的性能。

Feb, 2020

注意力不是唯一的解决方案：仅仅使用注意力机制会随着深度呈双倍指数级别的降低

本研究提出了一种新的方法来理解自我注意网络：我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加，通过这种分解，我们证明了自我注意具有强烈的归纳偏差，具体表现为 “令牌均匀性”；实验证明，不同变体的标准转换器体系结构存在收敛现象。

Mar, 2021

注意力的夸克

本文研究了注意力机制的基本构建块及其计算性质，提出三种最重要的机制：加性激活注意力，乘性输出注意力（输出门控）和乘性突触注意力（突触门控），并证明加性激活注意是基本电路的下限证明中的重要角色。

Feb, 2022