揭示和控制Transformer中的异常注意力分布
通过使用注意力机制,Transformer 模型不仅在性能上有所提升,同时还可通过可视化工具展示模型如何赋权于不同的输入元素,从而实现模型的解释和解读,本文提出了一种开源的基于多尺度可视化注意力机制的工具,并在 BERT 和 OpenAI GPT-2 上进行了演示,包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。
Jun, 2019
本文提出两种方法——注意力展开和注意力流——用于近似计算相对于输入令牌的注意力权重,以解决在Transformer模型中,由不同令牌产生不同的信息流动混合,使得注意力权重不可靠作为解释探针的问题。与原始注意力相比,这两种方法均具有更高的输入梯度基于消融法重要性评分相关性。
May, 2020
引入Monte-Carlo Attention(MCA),一种随机化逼近方法,旨在减少Transformer架构中的自注意机制的计算成本,并通过近似矩阵乘法对输入令牌进行编码,使得计算低关注度的输入令牌时具有弛容性,从而降低了注意力复杂度并提高了模型的精确性。
Jan, 2022
该研究介绍了一种新的探测方法 PAPA,它通过使用常量作为注意力权重值,取代了输入相关的注意力矩阵。该研究表明,当使用PAPA时,预训练Transformer模型在6个下游任务上仍然能够保持不错的性能表现,说明模型中的注意力机制并非如人们通常认为的那样重要。因此,该研究为探索更为简单的替代输入相关的注意力机制以及更好地利用这一机制提供了新的研究思路。
Nov, 2022
我们的研究发现了Transformer模型中一个被忽视的异常行为,称之为“Transformers的头痛”,并引入了一种名为Collinear Constrained Attention (CoCA)的新型自注意结构,以解决该问题,并实现优秀的外推性能,同时提高了CoCA的计算和空间效率。
Sep, 2023
本研究通过分析使用标准的浅层前馈网络来模拟原始Transformer模型中的注意力机制的有效性,采用知识蒸馏的方法,用简单的前馈网络替换Transformer中的关键元素,并在IWSLT2017数据集上进行实验,发现这种“无注意力Transformer”具备与原始架构相媲美的性能,通过深入的消融研究和尝试不同的替代网络类型和规模,我们提供了支持我们方法可行性的见解,这不仅揭示了浅层前馈网络在模拟注意力机制方面的适应性,也强调了它们简化序列任务复杂架构的潜力。
Nov, 2023
通过引入可分解的关注机制,我们将注意力机制的计算和内存复杂度从O(N^2)降低到O(N),并保持了注意力矩阵的完整表示,具有稀疏性和全连接关系。经过各种标准设置的测试,结果表明我们的注意力机制具有稳定的性能,并在自我注意力被使用的多种应用领域中具有重要潜力。
Feb, 2024
通过分析自我注意力机制和层标准化对秩崩溃的影响,本文发现层标准化在自我注意力的秩崩溃中起到了关键作用,为自我注意力提供了更富表现力、多功能的非线性动力系统。
May, 2024
我们全面分析了在直方图任务中训练的简单Transformer模型,该任务的目标是计算来自固定字母表的输入序列中每个项的出现次数。尽管表面上看起来很简单,但该任务表现出丰富的现象学,使我们能够描述不同的架构组件如何对不同的算法解决方案的出现做出贡献。我们介绍了实现解决方案的两种定性不同机制:关系和库存法计数。模型能够实现哪种解决方案取决于注意机制、激活函数、记忆容量的精确选择以及是否存在起始序列令牌等因素,通过对计数任务的学习模型进行反思,我们发现了形成两种机制的证据。从更广泛的角度来看,我们的分析提供了一个框架,用于理解Transformer模型的不同架构组件之间的相互作用如何塑造多样化的算法解决方案和近似。
Jul, 2024
本研究解决了变换器基础的大型语言模型在工作记忆容量上的限制问题,尤其是在N-back任务中表现显著下降。通过引入行为科学中的执行注意力理论,研究发现自注意力机制可能是导致这一容量限制的原因,且随着N的增加,注意力分数的总熵也随之增加,表明注意力分数的分散性可能是造成N-back任务容量限制的关键因素。
Sep, 2024