May, 2023

Brainformers: 简单性与效率的平衡

TL;DR本文介绍了一种名为 Brainformer 的复合深度神经网络模型,其中包括稀疏门控前馈层、紧密前馈层、自注意层以及不同形式的层规范化和激活函数。 Brainformer 模型表现优异且更为高效,比当前最先进的密集和稀疏的 Transformers 模型快 5 倍。在下游任务评估中,Brainformer 模型与 GLaM 模型相比,细调后 SuperGLUE 得分高出 3%。