BriefGPT.xyz
Ask
alpha
关键词
converge performance
搜索结果 - 1
BranchNorm: 极深 Transformer 网络的鲁棒缩放
本文提出了一种名为 BranchNorm 的方法,用于以更好的效果平衡训练稳定性和收敛性来动态重新调整 Transformer 的分支。
PDF
a year ago
Prev
Next