注意力与事后解释性相遇：数学视角

Feb, 2024

注意力与事后解释性相遇：数学视角

Attention Meets Post-hoc Interpretability: A Mathematical Perspective

Gianluigi Lopardo, Frederic Precioso, Damien Garreau

TL;DR通过数学研究，我们发现后续方法能够捕捉到比仅仅检查注意力权重更有用的见解，并且它们与基于注意力机制的解释结果存在明显差异。

Abstract

attention-based architectures, in particular transformers, are at the heart of a technological revolution. Interestingly, in addition to helping obtain →

attention-based architectures transformers state-of-the-art results attention mechanism post-hoc methods

发现论文，激发创造

边际概率就足够了吗？

本篇论文提出了关于注意机制的贝叶斯基础，将不同的机器学习注意力架构统一起来，并且提出了与神经科学中的机制相关的桥梁。

Apr, 2023

坚持承诺：（如何）让注意力成为解释？

研究关注机制在 NLP 中的应用，提出了一个针对循环网络序列分类任务中存在的问题的解决方法，并给出了证明，说明关注机制可以提供循环模型的可靠解释。

May, 2020

为什么关注机制可能无法解释？

本文讨论了 Attention-based methods 在模型中的解释性作用，指出了 recent research 发现的 attention-as-importance interpretations 的局限性，即注意力权重本身可能具有额外的信息导致现象的发生，我们通过理论分析和实验展示了这个问题的存在，提出了两种缓解这个问题的方法，并在实验中证明这些方法能有效地提高 Attention 机制的可解释性。

Jun, 2020

从信息论的角度重新思考注意力权重作为解释

在信息理论的角度下，论文研究了不同类型的注意力机制在保留信息和解释模型输入方面的表现，并得出了一些结论。

Oct, 2022

基于注意力解释的欺骗学习

本研究提出一种简单方法，通过训练模型生成欺骗性的注意力掩码，从而质疑注意机制的可靠性，因为通过操纵注意权重，即使我们可以证明模型仍然依赖这些特征来驱动预测，我们的方法会减少指定的不允许的标记被分配的总权重。通过人类研究，我们展示了我们操作注意力的解释会欺骗人们认为偏见的模型的预测不依赖性别，从而对注意力在公平性和问责制的算法审计工具上的可靠性产生怀疑。

Sep, 2019

从认知到计算：人类注意力与 Transformer 架构的比较综述

人类注意力机制和 Transformer 模型在容量约束、注意路径和意图机制等方面存在显著差异，本文从认知功能的角度进行比较分析，旨在揭示一些开放性研究问题并鼓励跨学科努力，以从人类注意力机制中获得洞察，进而发展更普适的人工智能。

Apr, 2024

注意力不等于解释

通过多个 NLP 任务的广泛实验，发现学习的注意力权重往往与基于梯度的特征重要性测量之间存在不相关性，表明标准的注意力模块并不能提供有意义的解释并且不应该被视为能够提供这种解释。

Feb, 2019

注意力是否可解释？

测试加权输入组件的注意机制对于模型预测的影响，发现虽然注意机制可以预测输入组件的相对重要性，但并非绝对准确的指标。

Jun, 2019

通过注意机制从基础和应用研究角度改进预测性能和模型可解释性

本篇论文探讨了深度学习模型预测过程黑盒化的问题，并以作者的博士论文为基础，重点讨论了近年来备受关注的注意力机制及其在提高预测性能和可解释性方面的潜力，以及关于在大数据集和实际应用中评估和推广的应用研究，最终总结了这些发现对未来研究和发展的启迪。

Mar, 2023

令牌转换的重要性：为了视觉变换器的忠实后置解释

利用我们提出的令牌变换效果的度量来将令牌转换效果纳入解释中，通过在模型的所有层中整合注意权重和令牌转换效果，捕捉整体令牌贡献。实验结果表明，与最先进的 Vision Transformer 解释方法相比，我们提出的 TokenTM 方法具有卓越性能。

Mar, 2024