Feb, 2024

训练 Transformer 时打破对称性

TL;DR通过研究我们发现,Transformer 架构在没有位置编码和因果注意机制之一的情况下,对于输入令牌 $n+1$ 的预测对于输入令牌 $1, 2, ..., n-1$ 的排列是不变的,而通常情况下,两种机制都被采用并破坏了对输入令牌的对称性。最近已经证明可以在没有位置编码的情况下训练 Transformer,这必须依靠因果注意机制来实现。本文详细阐述了因果连接机制必须负责 Transformer 能够模拟有序输入序列的论点,并提供了这一现象的证据。