堆栈注意力的Transformer

May, 2024

A Transformer with Stack Attention

Jiaoda Li, Jennifer C. White, Mrinmaya Sachan, Ryan Cotterell

TL;DR自然语言被认为是（轻度）上下文敏感的。为了解决transformer模型在建模无上下文语言任务方面的能力限制，我们提出了利用可微分的基于堆栈的注意力机制来增强它们的方法。我们的基于堆栈的注意力机制可以与任何基于transformer的语言模型结合，对模型添加了一定程度的可解释性。我们展示了我们的基于堆栈的注意力机制的加入使得transformer模型能够建模一些，但不是全部确定性的无上下文语言。

Abstract

natural languages are believed to be (mildly) context-sensitive. Despite underpinning remarkably capable large language models, transformers