May, 2023

大型语言模型预训练中稀疏前馈网络的统一视角

TL;DR本文分析了 S-FFN 这种大而稀疏的前馈网络的两个主要设计选择:内存块(或专家)大小和内存块选择方法,并提供了它们相对有效性和效率的见解。在语言建模前训练中,我们发现一种更简单的选择方法 ——Avg-K,通过均值聚合隐藏状态选择块,可以比现有的 MoE 架构实现更低的困惑度。