SparseBERT: 自注意力中重要性分析的反思

ICMLFeb, 2021

SparseBERT: 自注意力中重要性分析的反思

SparseBERT: Rethinking the Importance Analysis in Self-attention

Han Shi, Jiahui Gao, Xiaozhe Ren, Hang Xu, Xiaodan Liang...

TL;DR通过研究注意力矩阵中不同位置的重要性，我们提出了可重构性较强的 Transformer 模型 SparseBERT，并给出了 Differentiable Attention Mask 算法以进一步指导模型的设计。我们证明了对角线元素可以被移除，而不影响模型的性能。通过广泛实验，证实了我们的有趣发现和算法的有效性。

Abstract

transformer-based models are popularly used in natural language processing (NLP). Its core component, self-attention, has aroused widespread interest. To understand the →

transformer-based models self-attention attention map sparsebert differentiable attention mask

发现论文，激发创造

关注机制的实际作用是多少？质疑预训练 Transformers 模型中关注机制的重要性

该研究介绍了一种新的探测方法 PAPA，它通过使用常量作为注意力权重值，取代了输入相关的注意力矩阵。该研究表明，当使用 PAPA 时，预训练 Transformer 模型在 6 个下游任务上仍然能够保持不错的性能表现，说明模型中的注意力机制并非如人们通常认为的那样重要。因此，该研究为探索更为简单的替代输入相关的注意力机制以及更好地利用这一机制提供了新的研究思路。

Nov, 2022

深度网络中空间注意机制的实证研究

本篇论文对注意力机制的实现方法进行了实证研究，发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著，为注意力机制的进一步研究及设计提供了新的思路和方向。

Apr, 2019

对称点积注意力用于 BERT 语言模型的高效训练

提出了一种与 Transformer 架构的自注意力机制兼容的替代性兼容函数，并在类似 BERT 模型的预训练中实现了对称的注意力机制，在 GLUE 基准测试中得分 79.36，减少了可训练参数数量的 6％，并将收敛前所需的训练步骤减少了一半。

Jun, 2024

自注意力矩阵的表达能力

本文研究了 Transformer 网络中的自注意力矩阵，重点分析了稀疏模式的逼近。我们证明了通过固定自注意力参数，采用不同的输入即可逼近各种稀疏矩阵，并提出了一种基于随机映射技术的构造性证明和算法。尤其是，在保持矩阵元素比率不变的精度下，仅需要 $log L$（L 为序列长度）的 $ d $ 即可逼近任何稀疏矩阵。

Jun, 2021

有效的注意力揭示解释性

该研究使用 GLUE 任务和 BERT，比较了标准注意力和有效注意力矩阵对于解释语言建模预训练和语言特征的差异，并发现有效注意力更加相关于最终任务的解决，推荐使用有效注意力更贴近设计目标。

May, 2021

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

注意力近似稀疏分布式存储

该研究发现，在某些数据条件下，Transformer Attention 机制与 Kanerva 的 Sparse Distributed Memory 有密切关联，可以提供 Attention 的新的计算和生物学解释，进一步确认预训练的 GPT2 Transformer 模型已满足这些条件。

Nov, 2021

关注掩码和层归一化在 Transformer 中的作用

通过分析自我注意力机制和层标准化对秩崩溃的影响，本文发现层标准化在自我注意力的秩崩溃中起到了关键作用，为自我注意力提供了更富表现力、多功能的非线性动力系统。

May, 2024

揭示 BERT 的黑暗秘密

本研究基于自注意力机制进行 BERT 模型的定量及定性分析，发现模型的超参数化导致自注意力机制复用率高，不同自注意力机制对不同 NLP 任务影响不同，针对性关闭某些自注意力机制可以提升模型性能。

Aug, 2019

通过注意力值压缩输入长度和生成文本

本文研究了 BERT 的注意力机制，探究了两个问题：如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制，并发现 BERT 的早期层对文本分类任务的关注度更高，其注意力和可以用于过滤给定序列的令牌，一定程度上减少了输入长度同时保持良好的测试准确性。

Mar, 2023