Oct, 2023

层叠注意力:提高 Transformer 模型对层次模式建模的能力

TL;DR我们提出了堆栈注意力:一种集成堆栈的注意力操作符,其灵感来源于堆栈与上下文无关语言(CFLs)的理论联系,以解决标准注意力无法识别某些句法结构的局限性。我们提出了两种变种:一种与确定性下推自动机(PDAs)相关,一种基于非确定性 PDAs,使得 transformers 能够识别任意 CFLs。我们证明,具有堆栈注意力的 transformers 在学习 CFLs 方面非常有效,能够在理论上具有最大的解析困难的 CFL 上取得强大的结果。我们还证明,堆栈注意力在受约束参数预算下在自然语言建模中更加有效,并包括机器翻译方面的结果。