视觉 Transformer 中查询 - 键交互的解析

Apr, 2024

视觉 Transformer 中查询 - 键交互的解析

Dissecting Query-Key Interaction in Vision Transformers

Xu Pan, Aaron Philip, Ziqian Xie, Odelia Schwartz

TL;DR通过奇异值分解研究图像视觉变换器中的自注意力机制，发现早期层更倾向于关注相似的标记，而后期层则更多地注意不相似的标记，这些奇异值表示的特征之间的相互作用具有可解释性，从而为理解转换器模型在处理图像时如何利用上下文和显著特征提供了新的解释角度。

Abstract

self-attention in vision transformers has been thought to perform perceptual grouping where tokens attend to other tokens with similar embeddings, which could correspond to semantically similar features in an ima

self-attention vision transformers perceptual grouping contextualization singular value decomposition

发现论文，激发创造

Transformer 中的可识别性

研究 Transformer 模型中的自注意力和语境嵌入等核心组件，提出了有效关注作为解释注意力的补充工具，展示了输入标记在模型中保持其身份，并发现身份信息主要编码在嵌入的角度中，并且随着深度的增加而逐渐降低，同时利用梯度归因方法展示了输入信息在产生语境嵌入时的强烈混合，最终展示了更好地理解和进一步研究 Transformer 模型所需的工具。

Aug, 2019

上下文感知自注意力网络

通过上下文信息来提高自注意力网络有效性的研究表明，利用内部嵌入全局和深度上下文的方式来上下文化查询和键层变换可以提高翻译任务的性能.

Feb, 2019

自注意力网络当 QK 特征向量集中时的局部化

自我注意机制在现代机器学习中盛行，通过调节注意定位的程度，它有能力自适应地从输入序列中选择标记，被许多研究人员认为是强大模型性能的基础之一，但也使学习动态的基本机制复杂化。近年来，主要有两个论点将注意定位与模型性能联系起来，即秩坍缩和熵崩溃，它们似乎互相矛盾，但通过特征化查询 - 键参数矩阵的特征谱，我们揭示出小特征谱方差会防止秩和熵的崩溃，从而提高模型的表达能力和可训练性。

Feb, 2024

AttentionViz: Transformer 注意力的全局视图

本文介绍了一种新的可视化技术，旨在帮助研究人员理解转换器中的自我注意机制，并演示了基于 query-key 嵌入的交互式可视化工具 AttentionViz，以改进模型的理解和提供关于查询 - 键交互的新见解。

May, 2023

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

自注意力动态中群集的出现

本文将 Transformer 视为相互作用的粒子系统，描述了当权重不随时间变化时，学习表示的几何特征，证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象，这取决于值矩阵的谱。同时，在一维情况下，证明了自我关注矩阵收敛于低秩布尔矩阵。这些结果的组合在数学上证实了 Vaswani 等人的经验观察，即在 Transformers 处理一系列标记时会出现 “leader”。

May, 2023

针对视觉识别的上下文转换网络

该论文提出了一种新颖的 Transformer 风格模块，即 Contextual Transformer (CoT) 块，它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习，从而增强了视觉表示能力，可作为更强大的骨干网。

Jul, 2021

视觉 Transformer 中钥匙的流形表示

该研究通过解耦键值查询，采取流形表示的方式，探索了视觉 Transformer 模型性能的提升，实验证明这种方法可以显著增加模型在图片分类、目标检测和实例分割任务中的准确性。

Feb, 2024

KVT：使用 k-NN 注意力增强视觉 Transformers

本文提出了一种 K-NN 自注意力机制，具有更好的速度和准确率，且适用于各种不同种类的 transformer 结构，从而可以提高图像识别的性能。

May, 2021

ScalableViT: 重思视觉 Transformer 的面向上下文的泛化

本文提出了可扩展的自注意力机制 (SSA) 和交互窗口自注意力 (IWSA) 机制以及它们的堆叠模型 Scalable Vision Transformer (ScalableViT)，并在 ImageNet-1K 分类任务上超越了目前最先进的 Twins-SVT-S 和 Swin-T 模型。

Mar, 2022