自注意力网络当 QK 特征向量集中时的局部化

Feb, 2024

自注意力网络当 QK 特征向量集中时的局部化

Self-attention Networks Localize When QK-eigenspectrum Concentrates

Han Bao, Ryuichiro Hataya, Ryo Karakida

TL;DR自我注意机制在现代机器学习中盛行，通过调节注意定位的程度，它有能力自适应地从输入序列中选择标记，被许多研究人员认为是强大模型性能的基础之一，但也使学习动态的基本机制复杂化。近年来，主要有两个论点将注意定位与模型性能联系起来，即秩坍缩和熵崩溃，它们似乎互相矛盾，但通过特征化查询 - 键参数矩阵的特征谱，我们揭示出小特征谱方差会防止秩和熵的崩溃，从而提高模型的表达能力和可训练性。

Abstract

The self-attention mechanism prevails in modern machine learning. It has an interesting functionality of adaptively selecting tokens from an input sequence by modulating the degree of attention localization, whic

self-attention mechanism adaptively selecting tokens rank collapse entropy collapse eigenspectrum variance

发现论文，激发创造

自注意力网络的本地性建模

本篇研究提出了一种基于学习性高斯偏置的自注意力网络的局部特征建模方法，能够从更细致的角度获取有用的局部上下文信息，通过实验验证证明该方法能够有效地应用于翻译任务中。

Oct, 2018

视觉 Transformer 中查询 - 键交互的解析

通过奇异值分解研究图像视觉变换器中的自注意力机制，发现早期层更倾向于关注相似的标记，而后期层则更多地注意不相似的标记，这些奇异值表示的特征之间的相互作用具有可解释性，从而为理解转换器模型在处理图像时如何利用上下文和显著特征提供了新的解释角度。

Apr, 2024

易用注意力：Transformer 模型的简易自注意机制

提出一种名为 easy attention 的新型注意机制，用于改进用于预测混沌系统时间动态的 Transformer 神经网络，通过自注意力机制直接将注意力得分作为可学习参数，具有更强的鲁棒性和较低的复杂性，适用于重建和预测混沌系统的时间动态。

Aug, 2023

自注意力动态中群集的出现

本文将 Transformer 视为相互作用的粒子系统，描述了当权重不随时间变化时，学习表示的几何特征，证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象，这取决于值矩阵的谱。同时，在一维情况下，证明了自我关注矩阵收敛于低秩布尔矩阵。这些结果的组合在数学上证实了 Vaswani 等人的经验观察，即在 Transformers 处理一系列标记时会出现 “leader”。

May, 2023

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022

通过核主成分分析揭示自注意力的隐藏结构

我们通过核主成分分析推导了自注意力机制，表明自注意力将其查询向量投影到特征空间中其关键矩阵的主成分轴上。利用我们的核主成分分析框架，我们提出了一种鲁棒的自注意力机制 RPC-Attention，该机制对数据污染具有弹性，并在 ImageNet-1K 目标分类、WikiText-103 语言建模和 ADE20K 图像分割任务中通过实验证明了 RPC-Attention 相对于 softmax attention 的优势。

Jun, 2024

自注意力声学模型

本篇论文探讨如何应用自注意力机制解决计算复杂度、模型稳定性和位置信息等问题，相比于 LSTM 模型，该模型不仅运算时间更快，而且更具可解释性。

Mar, 2018

深度网络中空间注意机制的实证研究

本篇论文对注意力机制的实现方法进行了实证研究，发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著，为注意力机制的进一步研究及设计提供了新的思路和方向。

Apr, 2019

自注意力矩阵的表达能力

本文研究了 Transformer 网络中的自注意力矩阵，重点分析了稀疏模式的逼近。我们证明了通过固定自注意力参数，采用不同的输入即可逼近各种稀疏矩阵，并提出了一种基于随机映射技术的构造性证明和算法。尤其是，在保持矩阵元素比率不变的精度下，仅需要 $log L$（L 为序列长度）的 $ d $ 即可逼近任何稀疏矩阵。

Jun, 2021

神经注意力：利用神经网络增强自注意力机制中的 QKV 计算

通过神经网络计算 QKV，优化自注意力机制在深度学习中的表现，并在实验中证明了该方法的有效性和潜力。

Oct, 2023