注意机制不学习累加模型：重新思考变压器中特征重要性

May, 2024

注意机制不学习累加模型：重新思考变压器中特征重要性

Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers

Tobias Leemann, Alina Fastowski, Felix Pfeiffer, Gjergji Kasneci

TL;DR我们解决了将特征归属方法应用于主导自然语言处理等领域的转换器架构的关键挑战。我们形式上证明了一项令人担忧的不兼容性：转换器结构无法与常见的特征归因的代理模型对齐，从而削弱了这些传统解释方法的基础。为了解决这个差异，我们引入了 Softmax-Linked Additive Log-Odds Model（SLALOM），这是一种专门与转换器框架对齐的新型代理模型。与现有方法不同，SLALOM 证明了能够在合成和真实数据集上提供一系列忠实而深入的解释。通过展示从 SLALOM 计算得出的多样化的解释在不同任务上优于常见的代理解释，我们强调了需要针对特定任务的特征归属而不是一刀切的方法的重要性。

Abstract

We address the critical challenge of applying feature attribution methods to the transformer architecture, which dominates current applications in natural language processing and beyond. Traditional attribution m

transformer architecture feature attribution methods explainable ai surrogate models slalom

发现论文，激发创造

特征增强解释器对特征增强预测器的解释能力如何？

该论文研究了深度学习中可解释人工智能的问题，特别关注了特征加性解释器在特征加性预测器中的适用性，并对特征交互进行评估，结果显示所有解释器在正确归因特征重要性方面最终失败。

Oct, 2023

总结事实：LLMs 中事实回忆的叠加机制

基于 Transformer 的大型语言模型（LLMs）如何存储和检索知识？我们关注了这个任务的最基本形式 —— 事实召回，其中模型被要求在形如 “事实：斗兽场位于国家” 的提示中明确地呈现存储的事实。我们发现，基于事实召回的机制比之前认为的更为复杂。它包括几个不同、独立且具有不同质量的机制，这些机制通过加法组合，在正确的属性上进行构造性干扰。我们将这种通用现象称为加性模式：模型通过对多个独立的贡献求和来计算。每个机制的贡献本身可能不足够，但求和的结果在正确答案上产生了构造性干扰。此外，我们扩展了直接逻辑回归归因法的方法，将注意力头的输出归因给单个源标记。我们使用这种技术来解包我们所称的 ' 混合头部 '—— 它们本身是来自不同源标记的两个独立的加性更新的一对。

Feb, 2024

深度学习架构中特征归因的协调：增强可解释性和一致性

本研究旨在检验特征归因法在不同深度学习架构模型间的泛化能力，以及探索归一化的特征解释方法在提高机器学习应用的可解释性和信任度方面的潜力。

Jul, 2023

AttnLRP：面向 Transformer 的注意力感知分层相关传播

扩展対面层级相关传递方法以处理注意力层可以实现对大型语言模型进行准确且高效的非黑盒推理解释。

Feb, 2024

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

通过点亮重要信息更好地解释 Transformers

提出了一种在层间相关传播 (LRP) 方法的基础上通过细化信息流来突出重要信息并消除无关信息，实验结果表明，与八个基准方法相比，在分类和问答数据集上我们的方法始终表现出超过 3% 到 33% 的解释指标的提升，提供了更好的解释性能。

Jan, 2024

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

T-Explainer: 基於梯度的模型无关解释性框架

可解释人工智能（Explainable Artificial Intelligence）通过提供准确、一致且稳定的解释，解决机器学习中黑盒模型的透明度问题，其中基于泰勒展开的 T-Explainer 成为了一种有效的特征归因方法。

Apr, 2024

现成孪生 transformer 网络的近似归属度

对 Siamese encoders 进行了方法验证，分析了其对语言学不同方面的关注，以及其词汇偏好。

Feb, 2024

享受显著性：基于单词显著性的 Transformer 模型的更好及忠实解释

本文探讨了如何提高基于预训练 Transformer 的模型的预测性能以及其对于预测理由的准确性，并提出了一种名为 SaLoss 的辅助损失函数，该函数利用 TextRank 方法从训练数据中提取信息以辅助 BERT 进行下游任务的微调，实验证明使用该函数训练的模型比普通 BERT 模型更加准确和有说服力，提高了在下游任务中的预测性能。

Aug, 2021