Jan, 2025
参数与运算量:混合专家语言模型最优稀疏性的扩展法则
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for
Mixture-of-Experts Language Models
TL;DR本研究解决了语言模型容量扩展中参数数量与每个样本计算量之间相互作用的重要性尚未充分理解的问题。通过探索稀疏混合专家模型中稀疏性对预训练和下游少样本评估性能的影响,发现存在一种最优稀疏水平,可以在不同的约束条件下提高训练效率和模型性能。这些发现为混合专家模型的扩展法则提供了更深的理解,并为设计更加高效的模型架构提供了新见解。