AAAIJun, 2022

对抗式自注意力用于语言理解

TL;DR本研究通过提出对 Transformer 模型的自注意力机制进行改进,提出了 Adversarial Self-Attention(ASA)机制,旨在抑制模型对部分特征的依赖以及探索更广泛的语义,实现更好的泛化性能和鲁棒性。实验结果表明,在预训练和微调阶段中,使用 ASA 的模型相较于普通训练在长远步骤上获得了显著的性能提升,这些模型也能够在泛化性能和鲁棒性方面胜过普通模型。