BriefGPT.xyz
大模型
Ask
alpha
关键词
scaling transformer models
搜索结果 - 1
通过更稀疏的选择提高稀疏模型的效率
提出了 ool,一种新颖的 MoE 模型,通过利用小型专家和基于阈值的路由器,实现了对模型性能的提升,并在减少计算负载 50% 以上的同时,不牺牲性能。
PDF
4 months ago
Prev
Next