BriefGPT.xyz
大模型
Ask
alpha
关键词
residual attention layer
搜索结果 - 1
ACL
RealFormer: 喜欢残差注意力的 Transformer
提出了一种名为 RealFormer 的技术,可以创建残差注意力层的 Transformer 网络,并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练,而且还可以导致具有更少注意力的模型,并提供了预训练检查点
→
PDF
4 years ago
Prev
Next