Transformer 注意力头对抽象摘要提供透明度吗？

SIGIRJul, 2019

Transformer 注意力头对抽象摘要提供透明度吗？

Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?

Joris Baan, Maartje ter Hoeve, Marlies van der Wees, Anne Schuth, Maarten de Rijke

TL;DR通过分析 transformer 中 attention heads 的分布，我们探讨了并提出一种方法来评估 Transformer 模型特定 attention distributions 的依赖程度，从而讨论了使用注意分布作为可解释性手段的含义。在某些 attention heads 确实专门用于句法和语义不同的输入的基础上，我们提出了一种贡献方式，以提高其可解释性，这对于所有 NLP 任务是否有效等进行了讨论。

Abstract

learning algorithms become more powerful, often at the cost of increased complexity. In response, the demand for algorithms to be transparent is growing. In nlp tasks, attention distributions learned by attention

learning algorithms transparency nlp tasks attention heads transformer model

发现论文，激发创造

抽象化摘要中的多头注意力理解

本文研究了适用于抽象总结的多头自注意机制的可解释性，介绍了三个度量衡来评估关注头的重要性，发现相对位置的头对总结表现至关重要，不建议弃掉，而强制稀疏性似乎不能显着提高可解释性。

Nov, 2019

人类引导下解释性注意力模式在摘要和主题分割中的应用

该论文介绍了一种结合人机交互的流程来发现重要的任务特定的注意力模式，然后注入到原始模型和较小的模型来提高模型的准确性与效率，取得了在提取式摘要和主题分割方面显著提高的结果。

Dec, 2021

通过点亮重要信息更好地解释 Transformers

提出了一种在层间相关传播 (LRP) 方法的基础上通过细化信息流来突出重要信息并消除无关信息，实验结果表明，与八个基准方法相比，在分类和问答数据集上我们的方法始终表现出超过 3% 到 33% 的解释指标的提升，提供了更好的解释性能。

Jan, 2024

抽象化摘要中的推理时间内容选择的注意力头掩蔽

本研究提出了一种简单而有效的关注头屏蔽技术，应用于编码器 - 解码器注意力以确定推断时显着的内容，对三个摘要数据集进行了演示，证明了其在数据效率和性能上的优越性。

Apr, 2021

论摘要总结压缩中的注意力温度问题

该研究论文着重研究如何将深度学习模型中的大模型压缩成小模型，以便更快地生成和节省计算资源，并探究注意力温度在捕捉伪标签方面的作用。

Jun, 2021

注意力不等于解释

通过多个 NLP 任务的广泛实验，发现学习的注意力权重往往与基于梯度的特征重要性测量之间存在不相关性，表明标准的注意力模块并不能提供有意义的解释并且不应该被视为能够提供这种解释。

Feb, 2019

从局部注意力到全局聚合：深入探究 BERT

通过使用梯度归属法分析，我们找出了自注意力头在 transformer 架构中的局部行为与全局行为之间的区别。此外，我们观察到，尽管混合上下文信息导致了注意力和归属度量之间有明显的偏差，但有些特定的模式在深度学习的所有层都是存在的。

Apr, 2020

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

缓解神经机器翻译中注意力头不平等

本篇论文研究表明 Transformer 中的注意力头并不相等，为解决这个问题，提出了 HeadMask 方法，在多个语言对中实现了翻译改进。

Sep, 2020

挑选未充分利用的头部：关注网络修剪对于融合对话指代信息的头部选择的视角

通过网络修剪的角度，研究了一种特征注入的注意头选择和操作策略，并在对话摘要中进行了案例研究，结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。

Dec, 2023