ICMLFeb, 2021

SparseBERT: 自注意力中重要性分析的反思

TL;DR通过研究注意力矩阵中不同位置的重要性,我们提出了可重构性较强的 Transformer 模型 SparseBERT,并给出了 Differentiable Attention Mask 算法以进一步指导模型的设计。我们证明了对角线元素可以被移除,而不影响模型的性能。通过广泛实验,证实了我们的有趣发现和算法的有效性。