Transformer 模型中上下文混杂的量化

ACLJan, 2023

Transformer 模型中上下文混杂的量化

Quantifying Context Mixing in Transformers

Hosein Mohebbi, Willem Zuidema, Grzegorz Chrupała, Afra Alishahi

TL;DR本文提出了一种针对 Transformer 模型的上下文混合得分方法 Value Zeroing，用于分析模型中各个编码层次信息混合的方式，并通过多种评估方法验证了该方法的优越性。

Abstract

self-attention weights and their transformed variants have been the main source of information for analyzing token-to-token interactions in transformer-based models. But despite their ease of interpretation, thes

self-attention transformer-based models encoder layer context mixing score information mixing

发现论文，激发创造

测量 Transformer 中上下文信息的混合

该论文提出了一种名为 ALTI 的方法，通过考虑注意力模块（multi-head attention, residual connection and layer normalization）以及定义一种新的度量方法来测量各层之间的令牌交互，从而提供更准确的输入归因分数以解释模型预测，在实验中显示 ALTI 比基于梯度方法更好地提供了模型预测的解释，提高了模型的鲁棒性。

Mar, 2022

Transformer 中的可识别性

研究 Transformer 模型中的自注意力和语境嵌入等核心组件，提出了有效关注作为解释注意力的补充工具，展示了输入标记在模型中保持其身份，并发现身份信息主要编码在嵌入的角度中，并且随着深度的增加而逐渐降低，同时利用梯度归因方法展示了输入信息在产生语境嵌入时的强烈混合，最终展示了更好地理解和进一步研究 Transformer 模型所需的工具。

Aug, 2019

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

上下文计数：对变压器在定量任务上的机理研究

该研究论文介绍了一种上下文计数任务，通过理论和实证分析，揭示了 Transformer 在性能和可解释性方面的影响因素，特别是发现因果关注机制更适合该任务，并且没有位置编码可以获得最佳准确性。

May, 2024

视觉 Transformer 中查询 - 键交互的解析

通过奇异值分解研究图像视觉变换器中的自注意力机制，发现早期层更倾向于关注相似的标记，而后期层则更多地注意不相似的标记，这些奇异值表示的特征之间的相互作用具有可解释性，从而为理解转换器模型在处理图像时如何利用上下文和显著特征提供了新的解释角度。

Apr, 2024

变形金刚中的注意力流量量化

本文提出两种方法 —— 注意力展开和注意力流 —— 用于近似计算相对于输入令牌的注意力权重，以解决在 Transformer 模型中，由不同令牌产生不同的信息流动混合，使得注意力权重不可靠作为解释探针的问题。与原始注意力相比，这两种方法均具有更高的输入梯度基于消融法重要性评分相关性。

May, 2020

上下文学习与权重移动对 softmax 回归的紧密性

本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Apr, 2023

上下文感知自注意力网络

通过上下文信息来提高自注意力网络有效性的研究表明，利用内部嵌入全局和深度上下文的方式来上下文化查询和键层变换可以提高翻译任务的性能.

Feb, 2019

基于 Transformer 的零样本序列标注句子分类器

本文研究了如何将句子级 transformer 修改为在没有任何直接监督的情况下有效的序列标记，我们发现一个软性注意模块可以明显优于现有方法，使得能够更好地在标记级别提高性能。

Mar, 2021

使用哨兵标记对自回归 Transformer 进行上下文压缩

通过增量压缩指定范围的令牌的中间激活，我们提出了一种即插即用的方法，从而在处理后续上下文时减少了内存和计算成本。实验证明，与稀疏注意力基线相比，我们的方法在流畅度、n-gram 匹配和语义相似性方面具有优势。最后，我们全面评估了上下文压缩对系统改进的益处。

Oct, 2023