Feb, 2024

理解 Transformer 在序列建模中的表达能力和机制

TL;DR我们对 Transformer 在序列建模中长、稀疏和复杂内存的逼近性质进行了系统研究,调查了 Transformer 的不同组件(如点积自注意力、位置编码和前馈层)对其表达能力的影响机制,并通过建立显式的逼近率来研究它们的综合效应。我们的研究揭示了 Transformer 中关键参数(如层数和注意力头数)的作用,并为替代架构提供了自然建议。