BriefGPT.xyz
大模型
Ask
alpha
关键词
moe language models
搜索结果 - 2
密集训练,稀疏推断:重思混合专家语言模型的训练
通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE),在保持性能的同时实现了强大的计算和参数效率,比标准稀疏 MoE 更具参数效率,在总参数大小和性能方面与密集模型持平,而且计算成本更低。
PDF
3 months ago
EMNLP
基于专家混合的高效大规模语言建模
本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较,并发现除了 fine-tuning 以外,在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同,值得进一步研究。
PDF
3 years ago
Prev
Next