揭示和控制Transformer中的异常注意力分布

Jun, 2024

揭示和控制Transformer中的异常注意力分布

Unveiling and Controlling Anomalous Attention Distribution in Transformers

Ruiqing Yan, Xingbo Du, Haoyu Deng, Linghan Zheng, Qiuzhuang Sun...

TL;DR通过对豁免现象的分析，这篇论文探讨了基于Transformer架构的大型模型中注意力机制中普遍存在的高强度关注第一个元素的现象，从而有助于开发关注分布的技术，如Key-Value（KV）Cache压缩和无限外插法。

Abstract

With the advent of large models based on the transformer architecture, researchers have observed an anomalous phenomenon in the attention mechanism--there is a very high attention on the first element, which is p

发现论文，激发创造

Transformer模型中的注意力的多尺度可视化

通过使用注意力机制，Transformer 模型不仅在性能上有所提升，同时还可通过可视化工具展示模型如何赋权于不同的输入元素，从而实现模型的解释和解读，本文提出了一种开源的基于多尺度可视化注意力机制的工具，并在 BERT 和 OpenAI GPT-2 上进行了演示，包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。

Jun, 2019

变形金刚中的注意力流量量化

本文提出两种方法——注意力展开和注意力流——用于近似计算相对于输入令牌的注意力权重，以解决在Transformer模型中，由不同令牌产生不同的信息流动混合，使得注意力权重不可靠作为解释探针的问题。与原始注意力相比，这两种方法均具有更高的输入梯度基于消融法重要性评分相关性。

May, 2020

注意力机制的快速蒙特卡罗近似

引入Monte-Carlo Attention（MCA），一种随机化逼近方法，旨在减少Transformer架构中的自注意机制的计算成本，并通过近似矩阵乘法对输入令牌进行编码，使得计算低关注度的输入令牌时具有弛容性，从而降低了注意力复杂度并提高了模型的精确性。

Jan, 2022

关注机制的实际作用是多少？质疑预训练Transformers模型中关注机制的重要性

该研究介绍了一种新的探测方法 PAPA，它通过使用常量作为注意力权重值，取代了输入相关的注意力矩阵。该研究表明，当使用PAPA时，预训练Transformer模型在6个下游任务上仍然能够保持不错的性能表现，说明模型中的注意力机制并非如人们通常认为的那样重要。因此，该研究为探索更为简单的替代输入相关的注意力机制以及更好地利用这一机制提供了新的研究思路。

Nov, 2022

通过共线受限注意力解决Transformer的头痛问题

我们的研究发现了Transformer模型中一个被忽视的异常行为，称之为“Transformers的头痛”，并引入了一种名为Collinear Constrained Attention (CoCA)的新型自注意结构，以解决该问题，并实现优秀的外推性能，同时提高了CoCA的计算和空间效率。

Sep, 2023

重新思考注意力：探索浅层前馈神经网络作为Transformer中注意力层的替代方案

本研究通过分析使用标准的浅层前馈网络来模拟原始Transformer模型中的注意力机制的有效性，采用知识蒸馏的方法，用简单的前馈网络替换Transformer中的关键元素，并在IWSLT2017数据集上进行实验，发现这种“无注意力Transformer”具备与原始架构相媲美的性能，通过深入的消融研究和尝试不同的替代网络类型和规模，我们提供了支持我们方法可行性的见解，这不仅揭示了浅层前馈网络在模拟注意力机制方面的适应性，也强调了它们简化序列任务复杂架构的潜力。

Nov, 2023

FAST: 可因子化注意力提升Transformer速度

通过引入可分解的关注机制，我们将注意力机制的计算和内存复杂度从O(N^2)降低到O(N)，并保持了注意力矩阵的完整表示，具有稀疏性和全连接关系。经过各种标准设置的测试，结果表明我们的注意力机制具有稳定的性能，并在自我注意力被使用的多种应用领域中具有重要潜力。

Feb, 2024

关注掩码和层归一化在Transformer中的作用

通过分析自我注意力机制和层标准化对秩崩溃的影响，本文发现层标准化在自我注意力的秩崩溃中起到了关键作用，为自我注意力提供了更富表现力、多功能的非线性动力系统。

May, 2024

小型Transformer中的计数理解：注意力与前馈层之间的相互作用

我们全面分析了在直方图任务中训练的简单Transformer模型，该任务的目标是计算来自固定字母表的输入序列中每个项的出现次数。尽管表面上看起来很简单，但该任务表现出丰富的现象学，使我们能够描述不同的架构组件如何对不同的算法解决方案的出现做出贡献。我们介绍了实现解决方案的两种定性不同机制：关系和库存法计数。模型能够实现哪种解决方案取决于注意机制、激活函数、记忆容量的精确选择以及是否存在起始序列令牌等因素，通过对计数任务的学习模型进行反思，我们发现了形成两种机制的证据。从更广泛的角度来看，我们的分析提供了一个框架，用于理解Transformer模型的不同架构组件之间的相互作用如何塑造多样化的算法解决方案和近似。

Jul, 2024

自注意力限制了基于变换器模型的工作记忆容量

本研究解决了变换器基础的大型语言模型在工作记忆容量上的限制问题，尤其是在N-back任务中表现显著下降。通过引入行为科学中的执行注意力理论，研究发现自注意力机制可能是导致这一容量限制的原因，且随着N的增加，注意力分数的总熵也随之增加，表明注意力分数的分散性可能是造成N-back任务容量限制的关键因素。

Sep, 2024