May, 2024

堆栈注意力的Transformer

TL;DR自然语言被认为是(轻度)上下文敏感的。为了解决transformer模型在建模无上下文语言任务方面的能力限制,我们提出了利用可微分的基于堆栈的注意力机制来增强它们的方法。我们的基于堆栈的注意力机制可以与任何基于transformer的语言模型结合,对模型添加了一定程度的可解释性。我们展示了我们的基于堆栈的注意力机制的加入使得transformer模型能够建模一些,但不是全部确定性的无上下文语言。