ICLRFeb, 2023

去除快速通道的深度 Transformer: 修改自注意力实现准确信号传递

TL;DR通过设计参数初始化、偏差矩阵和位置相关的重缩放的组合,实现信号在无量纲变压器中的可信传播,使得在 WikiText-103 和 C4 上,我们的方法能够使没有标准化的深度变压器以与标准变压器相同的速度训练,并使深度无量纲变压器在大约 5 倍的迭代次数后达到与标准变压器相同的性能。