BriefGPT.xyz
Ask
alpha
关键词
expert specialization
搜索结果 - 3
Lory: 全可微的自回归语言模型预训练中的专家混合
Lory 是一种全可微的混合专家模型架构,通过引入因果段路由策略和基于相似性的数据分批方法,实现了高效的专家融合运算和专家特化,该方法在自回归语言模型的预训练中取得了显著性能提升,在困惑度和多种下游任务上分别达到了 + 13.9% 和 +
→
PDF
2 months ago
对混合专家模型设计选择的实证理解
系统评估了混合专家模型中常见设计选择对验证性能的影响,发现了在令牌和序列层面上不同的影响。我们还提供了经验证据,表明学习路由和冻结、随机初始化的路由之间存在可比较的性能,暗示了学习路由可能并非必需。我们的研究进一步揭示了序列级路由可能导致特
→
PDF
5 months ago
DeepSeekMoE: 迈向极致专业化的混合专家语言模型
在大型语言模型的时代,混合专家模型 (MoE) 在扩大模型参数时管理计算成本方面具有潜力。然而,传统的 MoE 架构(如 GShard)在确保专家专业化方面面临挑战。因此,我们提出了 DeepSeekMoE 架构,旨在实现终极的专家专业化。
PDF
6 months ago
Prev
Next