ACLMar, 2021

掩码注意力网络:对 Transformer 进行反思和优化

TL;DR本文提出了一种新的理解 Self-Attention Network (SAN) 和 Feed-Forward Network (FFN) 为遮罩注意力网络 (Mask Attention Networks),并展示了它们是具有固定遮罩矩阵的 MAN 的两个特例。但是,它们的静态遮罩矩阵限制了文本表示学习中的本地性建模能力。因此,我们引入了一种新的层,名为动态遮罩注意力网络 (DMAN),它具有可学习的遮罩矩阵,可以自适应地建模本地性。为了结合 DMAN、SAN 和 FFN 的优点,我们提出了一个顺序分层结构。在各种任务(包括神经机器翻译和文本摘要)上的广泛实验证明,我们的模型优于原来的 Transformer。