BriefGPT.xyz
大模型
Ask
alpha
关键词
seer-moe
搜索结果 - 1
SEER-MoE:稀疏专家效率通过正则化的混合专家模型
我们的研究引入了 SEER-MoE,这是一个新颖的两阶段框架,用于减少预训练 MoE 模型的内存占用和计算需求。第一阶段通过使用重要数据计数指导来修剪专家的总数,而第二阶段采用基于正则化的微调策略来恢复准确性损失并减少推断过程中激活的专家数
→
PDF
3 months ago
Prev
Next