Jan, 2025
参数与FLOPs:混合专家语言模型最佳稀疏性的缩放规律
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for
Mixture-of-Experts Language Models
TL;DR本研究解决了语言模型容量确切表现的理解差距,特别是参数数量与每个示例计算量之间的交互关系。通过探索稀疏混合专家模型的稀疏性水平对模型性能的影响,发现存在优化稀疏性水平能同时提高训练效率和模型性能的条件。这些发现为理解 MoE 的缩放规律中的稀疏性影响提供了新视角,有助于设计更高效的架构。