BriefGPT.xyz
Ask
alpha
关键词
s-ffn
搜索结果 - 1
大型语言模型预训练中稀疏前馈网络的统一视角
本文分析了 S-FFN 这种大而稀疏的前馈网络的两个主要设计选择:内存块(或专家)大小和内存块选择方法,并提供了它们相对有效性和效率的见解。在语言建模前训练中,我们发现一种更简单的选择方法 ——Avg-K,通过均值聚合隐藏状态选择块,可以比
→
PDF
a year ago
Prev
Next