May, 2023

BranchNorm: 极深 Transformer 网络的鲁棒缩放

TL;DR本文提出了一种名为 BranchNorm 的方法,用于以更好的效果平衡训练稳定性和收敛性来动态重新调整 Transformer 的分支。