EMNLPSep, 2020

论 Transformer 识别形式语言的能力和限制

TL;DR本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力,并探讨了其中各组件的作用,发现相比于 LSTMs,在某些行为建模上有一定优势,同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。