Jan, 2024

DeepSeekMoE: 迈向极致专业化的混合专家语言模型

TL;DR在大型语言模型的时代,混合专家模型 (MoE) 在扩大模型参数时管理计算成本方面具有潜力。然而,传统的 MoE 架构(如 GShard)在确保专家专业化方面面临挑战。因此,我们提出了 DeepSeekMoE 架构,旨在实现终极的专家专业化。