BriefGPT.xyz
大模型
Ask
alpha
关键词
mixture-of-experts models
搜索结果 - 3
动态数据混合最大化专家混合模型的指令调优
基于混合专家模型(Mixture-of-Experts),提出了一种动态数据混合的处理方法以优化模型性能,通过动态地调整训练数据的采样权重,减少数据集中的冗余,从而在有限的训练预算下最大化整体性能。
PDF
17 days ago
Lory: 全可微的自回归语言模型预训练中的专家混合
Lory 是一种全可微的混合专家模型架构,通过引入因果段路由策略和基于相似性的数据分批方法,实现了高效的专家融合运算和专家特化,该方法在自回归语言模型的预训练中取得了显著性能提升,在困惑度和多种下游任务上分别达到了 + 13.9% 和 +
→
PDF
2 months ago
SEER-MoE:稀疏专家效率通过正则化的混合专家模型
我们的研究引入了 SEER-MoE,这是一个新颖的两阶段框架,用于减少预训练 MoE 模型的内存占用和计算需求。第一阶段通过使用重要数据计数指导来修剪专家的总数,而第二阶段采用基于正则化的微调策略来恢复准确性损失并减少推断过程中激活的专家数
→
PDF
3 months ago
Prev
Next