Feb, 2024

通过更稀疏的选择提高稀疏模型的效率

TL;DR提出了 ool,一种新颖的 MoE 模型,通过利用小型专家和基于阈值的路由器,实现了对模型性能的提升,并在减少计算负载 50% 以上的同时,不牺牲性能。