BriefGPT.xyz
大模型
Ask
alpha
关键词
fine-grained moe
搜索结果 - 1
细粒度专家混合的比例尺定律
通过分析扩展的变量范围,我们建立了适用于细粒度混合专家模型的扩展规模定律,并利用这些规律为特定计算预算推导出最佳的训练配置,结果显示 Mixture of Experts 模型在规模和训练预算扩大时始终优于密集 Transformer 模型
→
PDF
5 months ago
Prev
Next