BriefGPT.xyz
Ask
alpha
关键词
pre-layernorm transformer
搜索结果 - 1
NormFormer: 更好的 Transformer 预训练模型,附加额外的归一化处理
NormFormer 结构通过在每一层中添加三种规范化操作,即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线
→
PDF
3 years ago
Prev
Next