ACLFeb, 2022

克服自注意力机制的理论限制

TL;DR该研究研究了 Transformer 网络在接受依赖于单一输入符号的语言中的限制,并通过使用 PARITY 和 FIRST 语言作为例子,证明了三种克服该限制的方法。