BriefGPT.xyz
大模型
Ask
alpha
关键词
gating logit normalization
搜索结果 - 1
Skywork-MoE: 混合专家语言模型培训技术的深入研究
在本研究中,我们介绍了 Skywork-MoE 的训练方法,它是一个具有 1460 亿参数和 16 个专家的高性能混合专家(MoE)大型语言模型(LLM),它是从我们的 Skywork-13B 模型的预先存在的密集检查点初始化的。我们对再利
→
PDF
a month ago
Prev
Next