BriefGPT.xyz
Ask
alpha
关键词
moefication
搜索结果 - 1
ACL
MoEfication:Transformer 前馈层是专家混合层
本研究探讨了预训练模型 Transformers 中前馈网络(FFN)的计算模式,提出了一种将模型 MoEfication 为多个功能分区的方法,并建立了专家路由器以决定每个输入使用哪个专家。实验结果表明,这种方法可以在保持原始性能的同时使
→
PDF
3 years ago
Prev
Next