Feb, 2023
去除快速通道的深度Transformer: 修改自注意力实现准确信号传递
Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation
TL;DR通过设计参数初始化、偏差矩阵和位置相关的重缩放的组合,实现信号在无量纲变压器中的可信传播,使得在WikiText-103和C4上,我们的方法能够使没有标准化的深度变压器以与标准变压器相同的速度训练,并使深度无量纲变压器在大约5倍的迭代次数后达到与标准变压器相同的性能。