BriefGPT.xyz
大模型
Ask
alpha
关键词
moe architecture
搜索结果 - 4
大型语言模型中混合专家的更深入研究
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
PDF
8 days ago
推动专家混合模型的极限:非常参数高效的指令调优 MoE
我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。
PDF
10 months ago
基于任务的 MoE 多任务多语言机器翻译
我们设计了一种新方法,将任务信息与 Mixture-of-experts 模型结合,通过共享的动态任务适配器在不同粒度级别上将任务信息融入模型中。实验证明,相比密集和经典的 Mixture-of-experts 模型,在多任务多语言机器翻译
→
PDF
10 months ago
ICML
利用分布专家进行终身语言预训练
本文提出了 Lifelong-MoE,一种基于扩展的 MoE(Expansive Mixture-of-Experts)架构的 Lifelong Learning 方法,其具有更好的 few-shot 性能,可以对大规模语料进行更好的预训练
→
PDF
a year ago
Prev
Next